GNU/Linux >> Znalost Linux >  >> Linux

Která metoda archivace je lepší pro kompresi textových souborů v systému Linux?

Poslední aktualizace stránky maximumcompression.com je z června 2011 (odpověď aktualizována v říjnu 2015)
Proto tento web nezmiňuje
aktuální šampion textový kompresor po celém světě :

      cmix

Soutěže/benchmarky:

  • enwiki6
    18,2% komprese 1MB textového souboru enwik6
  • Calgary
    17,6% komprese 14 souborů korpusu Calgary (3GB soubor tar)
  • Hutterova cena
    15,7% komprese 100 MB textového souboru enwik8
    (ale cmix není vítěz, protože vyžaduje příliš mnoho paměti RAM, více než 20 GB)
  • Srovnání Open Source komprese Silesia
    15,7% komprese 202MB korpusu Silesia
  • Srovnání komprese velkého textu
    12,4% komprese 1GB textového souboru enwik9

Podrobnosti:
Byron Knoll aktivně vyvíjí cmix jako libre software (GPL) od roku 2013 na základě knihy Data Compression Explained od Matta Mahoneyho. Matt Mahoney také udržuje některé z výše uvedených benchmarků a navrhuje ZPAQ (WP), inkrementální archivátor příkazového řádku.

Pokud dáváte přednost standardnějšímu nástroji (vyžadujícímu méně paměti RAM), doporučuji:

      lrzip

lrzip je evolucí rzip od Con Kolivas.
lrzip znamená dva názvy:Long Range ZIP a Lzma RZIP .
lrzip je často lepší než xz (další populární kompresní nástroj).
Alexander Riccio také doporučuje lrzip .

Můj oblíbený je:

      zpaq

„odborník na archivaci“ , Matt Mahoney, intenzivně pracoval na algoritmech PAQ po dobu deseti let a poskytují nejlepší kompromis mezi CPU/paměťovými zdroji a úrovní komprese.

Nicméně poslední zpaq verze není v nedávné distribuci často zabalena/dostupná :-(
Vždy to kompiluji ze zdrojů, když mám nový stroj a potřebuji velmi dobrý kompresor:https://github.com/zpaq/zpaq

clone https://github.com/zpaq/zpaq
cd zpaq
g++ -O3 -march=native -Dunix zpaq.cpp libzpaq.cpp -pthread -o zpaq

Normálně má bz2 lepší kompresní poměr v kombinaci s lepšími funkcemi obnovitelnosti.

OTOH, gz je rychlejší.

xz je prý ještě lepší než bz2, ale neznám chování při načasování.


Možná byste se mohli podívat na tyto benchmarky, zejména na část testující kompresi souborů protokolu.


Linux
  1. Pro lepší crontab použijte anacron

  2. Který software pro kompresi souborů pro Linux nabízí největší zmenšení velikosti?

  3. Linux – jakou aplikaci použít pro kalendář?

  1. Jak spojit dva textové soubory v Linuxu

  2. Kompletní průvodce pro použití AsciiDoc v Linuxu

  3. Linux vs Windows:Který OS je lepší pro PC hry

  1. 3 odlehčené textové editory pro Linux

  2. Top 10 textových editorů pro Linux Desktop

  3. Příkaz Grep v Linuxu (Najít text v souborech)