这个已回答的问题解释了如何搜索和排序特定文件名,但是您将如何为整个目录完成此操作?我有 100 万个文本文件,我需要搜索十个最常用的单词。
数据库= /data/000/0000000/s##_date/*.txt - /data/999/0999999/s##_data/*txt
我所做的一切都会导致对文件名、路径或目录错误进行排序。
我在 grep 方面取得了一些进展,但部分文件名似乎出现在我的结果中。
grep -r . * | tr -c '[:alnum:]' '[\n*]' | sort | uniq -c | sort -nr | head -10
output:
1145
253 txt
190 s01
132 is
126 of
116 the
108 and
104 test
92 with
84 in
'txt' 和 's01' 来自文件名,而不是来自文本文件中的文本。我知道有一些方法可以排除像“the”这样的常用词,但宁愿根本不对文件名进行排序和计数。