Poslední aktualizace stránky maximumcompression.com je z června 2011 (odpověď aktualizována v říjnu 2015)
Proto tento web nezmiňuje
aktuální šampion textový kompresor po celém světě :
cmix
Soutěže/benchmarky:
- enwiki6
18,2% komprese 1MB textového souboru enwik6 - Calgary
17,6% komprese 14 souborů korpusu Calgary (3GB soubor tar) - Hutterova cena
15,7% komprese 100 MB textového souboru enwik8
(alecmixnení vítěz, protože vyžaduje příliš mnoho paměti RAM, více než 20 GB) - Srovnání Open Source komprese Silesia
15,7% komprese 202MB korpusu Silesia - Srovnání komprese velkého textu
12,4% komprese 1GB textového souboru enwik9
Podrobnosti:
Byron Knoll aktivně vyvíjí cmix jako libre software (GPL) od roku 2013 na základě knihy Data Compression Explained od Matta Mahoneyho. Matt Mahoney také udržuje některé z výše uvedených benchmarků a navrhuje ZPAQ (WP), inkrementální archivátor příkazového řádku.
Pokud dáváte přednost standardnějšímu nástroji (vyžadujícímu méně paměti RAM), doporučuji:
lrzip
lrzip je evolucí rzip od Con Kolivas.
lrzip znamená dva názvy:Long Range ZIP a Lzma RZIP .
lrzip je často lepší než xz (další populární kompresní nástroj).
Alexander Riccio také doporučuje lrzip .
Můj oblíbený je:
zpaq
„odborník na archivaci“ , Matt Mahoney, intenzivně pracoval na algoritmech PAQ po dobu deseti let a poskytují nejlepší kompromis mezi CPU/paměťovými zdroji a úrovní komprese.
Nicméně poslední zpaq verze není v nedávné distribuci často zabalena/dostupná :-(
Vždy to kompiluji ze zdrojů, když mám nový stroj a potřebuji velmi dobrý kompresor:https://github.com/zpaq/zpaq
clone https://github.com/zpaq/zpaq
cd zpaq
g++ -O3 -march=native -Dunix zpaq.cpp libzpaq.cpp -pthread -o zpaq
Normálně má bz2 lepší kompresní poměr v kombinaci s lepšími funkcemi obnovitelnosti.
OTOH, gz je rychlejší.
xz je prý ještě lepší než bz2, ale neznám chování při načasování.
Možná byste se mohli podívat na tyto benchmarky, zejména na část testující kompresi souborů protokolu.