Poslední aktualizace stránky maximumcompression.com je z června 2011 (odpověď aktualizována v říjnu 2015)
Proto tento web nezmiňuje
aktuální šampion textový kompresor po celém světě :
cmix
Soutěže/benchmarky:
- enwiki6
18,2% komprese 1MB textového souboru enwik6 - Calgary
17,6% komprese 14 souborů korpusu Calgary (3GB soubor tar) - Hutterova cena
15,7% komprese 100 MB textového souboru enwik8
(alecmix
není vítěz, protože vyžaduje příliš mnoho paměti RAM, více než 20 GB) - Srovnání Open Source komprese Silesia
15,7% komprese 202MB korpusu Silesia - Srovnání komprese velkého textu
12,4% komprese 1GB textového souboru enwik9
Podrobnosti:
Byron Knoll aktivně vyvíjí cmix
jako libre software (GPL) od roku 2013 na základě knihy Data Compression Explained od Matta Mahoneyho. Matt Mahoney také udržuje některé z výše uvedených benchmarků a navrhuje ZPAQ (WP), inkrementální archivátor příkazového řádku.
Pokud dáváte přednost standardnějšímu nástroji (vyžadujícímu méně paměti RAM), doporučuji:
lrzip
lrzip
je evolucí rzip
od Con Kolivas.
lrzip
znamená dva názvy:Long Range ZIP a Lzma RZIP .
lrzip
je často lepší než xz
(další populární kompresní nástroj).
Alexander Riccio také doporučuje lrzip
.
Můj oblíbený je:
zpaq
„odborník na archivaci“ , Matt Mahoney, intenzivně pracoval na algoritmech PAQ po dobu deseti let a poskytují nejlepší kompromis mezi CPU/paměťovými zdroji a úrovní komprese.
Nicméně poslední zpaq
verze není v nedávné distribuci často zabalena/dostupná :-(
Vždy to kompiluji ze zdrojů, když mám nový stroj a potřebuji velmi dobrý kompresor:https://github.com/zpaq/zpaq
clone https://github.com/zpaq/zpaq
cd zpaq
g++ -O3 -march=native -Dunix zpaq.cpp libzpaq.cpp -pthread -o zpaq
Normálně má bz2 lepší kompresní poměr v kombinaci s lepšími funkcemi obnovitelnosti.
OTOH, gz je rychlejší.
xz je prý ještě lepší než bz2, ale neznám chování při načasování.
Možná byste se mohli podívat na tyto benchmarky, zejména na část testující kompresi souborů protokolu.