ip 命令是否支持通配符？

Question

dpoiesz

Asked: 2018-01-22 17:36:18 +0800 CST2018-01-22 17:36:18 +0800 CST 2018-01-22 17:36:18 +0800 CST

使用单个命令行命令，我将如何搜索数据库中的每个文本文件以找到 10 个最常用的单词？

772

这个已回答的问题解释了如何搜索和排序特定文件名，但是您将如何为整个目录完成此操作？我有 100 万个文本文件，我需要搜索十个最常用的单词。

数据库= /data/000/0000000/s##_date/*.txt - /data/999/0999999/s##_data/*txt

我所做的一切都会导致对文件名、路径或目录错误进行排序。

我在 grep 方面取得了一些进展，但部分文件名似乎出现在我的结果中。

grep -r . * | tr -c '[:alnum:]' '[\n*]' | sort | uniq -c | sort -nr | head  -10
output:
 1145 
    253 txt
    190 s01
    132 is
    126 of
    116 the
    108 and
    104 test
     92 with
     84 in

'txt' 和 's01' 来自文件名，而不是来自文本文件中的文本。我知道有一些方法可以排除像“the”这样的常用词，但宁愿根本不对文件名进行排序和计数。

1 个回答

Voted

Kusalananda · Answer 1 · 2018-02-15T13:30:36+08:00

grep如果搜索了多个文件，将显示与模式匹配的每个文件的文件名以及包含匹配项的行，这就是您的情况。

而不是使用grep（这是一种灵感但缓慢的解决方案，无法cat一次性处理命令行上的所有文件），您实际上可以cat将所有文本文件放在一起并将其作为一个大文档处理，如下所示：

find /data -type f -name '*.txt' -exec cat {} + |
tr -cs '[:alnum:]' '\n' | sort | uniq -c | sort -nr | head

我已经添加-s，tr以便将多个连续的换行符压缩为一个，并且我将所有非字母数字更改为换行符（[\n*]对我来说没有什么意义）。该head命令默认产生十行输出，因此不需要-10(or )。-n 10

该命令在其文件名与模式匹配的任何位置find查找所有常规文件 ( ) 。一次尽可能多地调用这些文件来连接它们（这就是这样做的）。如果您有大量文件，可能会多次调用，但这不会影响管道的其余部分，因为它只是从+读取输出流。-type f/data*.txtcat-exec cat {} +catfindcat

为避免计算空行，您可能希望在管道中sed '/^ *$/d'的第一个之前或之后插入。sort

使用单个命令行命令，我将如何搜索数据库中的每个文本文件以找到 10 个最常用的单词？

如何将 GPG 私钥和公钥导出到文件

ssh 无法协商：“找不到匹配的密码”，正在拒绝 cbc

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

如何卸载内核模块“nvidia-drm”？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

使用单个命令行命令，我将如何搜索数据库中的每个文本文件以找到 10 个最常用的单词？

1 个回答

相关问题