Udělal jsem škrábání webu pro projekt konverze. Chtěl bych udělat nějaké statistiky o typech souborů, které tam jsou – například 400 .html soubory, 100 .gif , atd. Jaký je snadný způsob, jak to udělat? Musí být rekurzivní.
Upravit: Se skriptem, který zveřejnil maxschelpzig, mám nějaké problémy kvůli architektuře webu, který jsem seškrábal. Některé soubory mají název *.php?blah=blah&foo=bar s různými argumenty, takže je všechny považuje za jedinečné. Řešení tedy musí vzít v úvahu *.php* být všichni stejného typu, abych tak řekl.
Přijatá odpověď:
Můžete použít find a uniq pro toto, např.:
$ find . -type f | sed 's/.*.//' | sort | uniq -c
16 avi
29 jpg
136 mp3
3 mp4
Vysvětlení příkazu
findrekurzivně vypíše všechny názvy souborůsedodstraní z každého souboru předponu až po příponu souboruuniqpředpokládá seřazený vstup-cprovádí počítání (jako histogram).
Linux – Nakonfigurujte systém Linux pro agresivnější ukládání do mezipaměti souborového systému?
Jak pozastavit a přenést proces na pozadí do popředí?