dpoiesz提出的问题 -unix

dpoiesz

Asked: 2018-01-22 17:36:18 +0800 CST

使用单个命令行命令，我将如何搜索数据库中的每个文本文件以找到 10 个最常用的单词？

2

这个已回答的问题解释了如何搜索和排序特定文件名，但是您将如何为整个目录完成此操作？我有 100 万个文本文件，我需要搜索十个最常用的单词。

数据库= /data/000/0000000/s##_date/*.txt - /data/999/0999999/s##_data/*txt

我所做的一切都会导致对文件名、路径或目录错误进行排序。

我在 grep 方面取得了一些进展，但部分文件名似乎出现在我的结果中。

grep -r . * | tr -c '[:alnum:]' '[\n*]' | sort | uniq -c | sort -nr | head  -10
output:
 1145 
    253 txt
    190 s01
    132 is
    126 of
    116 the
    108 and
    104 test
     92 with
     84 in

'txt' 和 's01' 来自文件名，而不是来自文本文件中的文本。我知道有一些方法可以排除像“the”这样的常用词，但宁愿根本不对文件名进行排序和计数。

Web Analytics