Zaprvé, soubor rozhodně nechcete otevírat v editoru (je příliš velký na to, aby ho takto upravoval).
Místo toho, pokud se chcete pouze identifikovat zda soubor obsahuje něco jiného než A
, T
, C
a G
, můžete to udělat pomocí
grep '[^ATCG]' filename
To by vrátilo všechny řádky, které obsahují cokoli jiného než tyto čtyři znaky.
Pokud chcete smazat tyto znaky ze souboru, můžete tak učinit pomocí
tr -c -d 'ATCG\n' <filename >newfilename
(jestli je to správný způsob, jak soubor "opravit" nebo ne, nevím)
Tím by se odstranily všechny znaky v souboru, které nejsou jedním ze čtyř, a také by se zachovaly nové řádky (\n
). Upravený soubor bude zapsán do newfilename
.
Pokud se jedná o systematickou chybu, která do souboru něco přidala, pak by to mohlo být opraveno pomocí sed
nebo awk
, ale zatím nevíme, jak vaše data vypadají.
Pokud máte soubor otevřený v vi
nebo vim
a poté příkaz
/[^ATCG]
najde v editačním bufferu další znak, který není A
, T
, C
nebo G
.
A :%s/[^ATCG]//g
odstraní je všechny.