GNU/Linux >> Znalost Linux >  >> Linux

Proč uniq počítá stejná slova jako různá?

Zkuste nejprve seřadit:

cat .temp_occ | sort| uniq -c | sort -k1,1nr -k2 > distribution.txt

Nebo použijte "sort -u", které také eliminuje duplikáty. Viz zde.


Velikost souboru nemá nic společného s tím, co vidíte. Z manuálové stránky uniq(1):

Poznámka:'uniq' nedetekuje opakované řádky, pokud nejsou přilehlé. Možná budete chtít nejprve seřadit vstup nebo použít 'sort -u' bez 'uniq'. Porovnání také respektují pravidla specifikovaná 'LC_COLLATE'.`

Takže spuštění uniq na

a
b
a

vrátí:

a
b
a

Linux
  1. Používáte Uniq na Unicode Text?

  2. Proč muž v 00:30 tiskne „gimme Gimme Gimme“?

  3. Linux – Proč Setuid nefunguje?

  1. Proč Unixový čas začíná na 1970-01-01?

  2. Získat seřazený počet výskytů slov v textovém souboru všech slov a tiskový výstup?

  3. Proč má Ls -l na výstupu jinou velikost než Ls -s?

  1. Proč má nový adresář počet pevných odkazů 2, než se do něj něco přidá?

  2. Třídit a počítat Počet výskytů řádků?

  3. Proč find -mtime nefunguje podle očekávání u souborů s různými časovými pásmy?