Udělal jsem škrábání webu pro projekt konverze. Chtěl bych udělat nějaké statistiky o typech souborů, které tam jsou – například 400 .html
soubory, 100 .gif
, atd. Jaký je snadný způsob, jak to udělat? Musí být rekurzivní.
Upravit: Se skriptem, který zveřejnil maxschelpzig, mám nějaké problémy kvůli architektuře webu, který jsem seškrábal. Některé soubory mají název *.php?blah=blah&foo=bar
s různými argumenty, takže je všechny považuje za jedinečné. Řešení tedy musí vzít v úvahu *.php*
být všichni stejného typu, abych tak řekl.
Přijatá odpověď:
Můžete použít find
a uniq
pro toto, např.:
$ find . -type f | sed 's/.*.//' | sort | uniq -c
16 avi
29 jpg
136 mp3
3 mp4
Vysvětlení příkazu
find
rekurzivně vypíše všechny názvy souborůsed
odstraní z každého souboru předponu až po příponu souboruuniq
předpokládá seřazený vstup-c
provádí počítání (jako histogram).
Linux – Nakonfigurujte systém Linux pro agresivnější ukládání do mezipaměti souborového systému?
Jak pozastavit a přenést proces na pozadí do popředí?