Jak odstranit duplicitní slova ze souboru prostého textu pomocí příkazu linux

Za předpokladu, že slova jsou jedno na řádek a soubor je již seřazen:

uniq filename

Pokud soubor není seřazený:

sort filename | uniq

Pokud nejsou jeden na řádek a nevadí vám, že jsou jeden na řádek:

tr -s [:space:] \\n < filename | sort | uniq

To však neodstraní interpunkci, takže možná budete chtít:

tr -s [:space:][:punct:] \\n < filename | sort | uniq

To ale odstraní spojovník ze slov s pomlčkou. "man tr" pro více možností.

ruby -pi.bak -e '$_.split(",").uniq.join(",")' filename ?

Uznávám, že dva druhy citací jsou ošklivé.

Linux