AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题 / 418722
Accepted
dpoiesz
dpoiesz
Asked: 2018-01-22 17:36:18 +0800 CST2018-01-22 17:36:18 +0800 CST 2018-01-22 17:36:18 +0800 CST

使用单个命令行命令,我将如何搜索数据库中的每个文本文件以找到 10 个最常用的单词?

  • 772

这个已回答的问题解释了如何搜索和排序特定文件名,但是您将如何为整个目录完成此操作?我有 100 万个文本文件,我需要搜索十个最常用的单词。

数据库= /data/000/0000000/s##_date/*.txt - /data/999/0999999/s##_data/*txt

我所做的一切都会导致对文件名、路径或目录错误进行排序。

我在 grep 方面取得了一些进展,但部分文件名似乎出现在我的结果中。

grep -r . * | tr -c '[:alnum:]' '[\n*]' | sort | uniq -c | sort -nr | head  -10
output:
 1145 
    253 txt
    190 s01
    132 is
    126 of
    116 the
    108 and
    104 test
     92 with
     84 in

'txt' 和 's01' 来自文件名,而不是来自文本文件中的文本。我知道有一些方法可以排除像“the”这样的常用词,但宁愿根本不对文件名进行排序和计数。

command-line sort
  • 1 1 个回答
  • 143 Views

1 个回答

  • Voted
  1. Best Answer
    Kusalananda
    2018-02-15T13:30:36+08:002018-02-15T13:30:36+08:00

    grep如果搜索了多个文件,将显示与模式匹配的每个文件的文件名以及包含匹配项的行,这就是您的情况。

    而不是使用grep(这是一种灵感但缓慢的解决方案,无法cat一次性处理命令行上的所有文件),您实际上可以cat将所有文本文件放在一起并将其作为一个大文档处理,如下所示:

    find /data -type f -name '*.txt' -exec cat {} + |
    tr -cs '[:alnum:]' '\n' | sort | uniq -c | sort -nr | head
    

    我已经添加-s,tr以便将多个连续的换行符压缩为一个,并且我将所有非字母数字更改为换行符([\n*]对我来说没有什么意义)。该head命令默认产生十行输出,因此不需要-10(or )。-n 10

    该命令在其文件名与模式匹配的任何位置find查找所有常规文件 ( ) 。一次尽可能多地调用这些文件来连接它们(这就是这样做的)。如果您有大量文件,可能会多次调用,但这不会影响管道的其余部分,因为它只是从+读取输出流。-type f/data*.txtcat-exec cat {} +catfindcat


    为避免计算空行,您可能希望在管道中sed '/^ *$/d'的第一个之前或之后插入。sort

    • 1

相关问题

  • ip 命令是否支持通配符?

  • 需要许多参数的实用程序的推荐界面是什么?[关闭]

  • 远程运行 X 应用程序,在远程主机上运行 GUI [关闭]

  • 使 mysql CLI 以交互方式向我询问密码

  • 没有服务器的命令行 pub/sub?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    如何将 GPG 私钥和公钥导出到文件

    • 4 个回答
  • Marko Smith

    ssh 无法协商:“找不到匹配的密码”,正在拒绝 cbc

    • 4 个回答
  • Marko Smith

    我们如何运行存储在变量中的命令?

    • 5 个回答
  • Marko Smith

    如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域?

    • 3 个回答
  • Marko Smith

    如何卸载内核模块“nvidia-drm”?

    • 13 个回答
  • Marko Smith

    dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

    • 2 个回答
  • Marko Smith

    如何从 systemctl 服务日志中查看最新的 x 行

    • 5 个回答
  • Marko Smith

    Nano - 跳转到文件末尾

    • 8 个回答
  • Marko Smith

    grub 错误:你需要先加载内核

    • 4 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Martin Hope
    rocky 如何将 GPG 私钥和公钥导出到文件 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Wong Jia Hau ssh-add 返回:“连接代理时出错:没有这样的文件或目录” 2018-08-24 23:28:13 +0800 CST
  • Martin Hope
    Evan Carroll systemctl 状态显示:“状态:降级” 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim 我们如何运行存储在变量中的命令? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S 为什么 /dev/null 是一个文件?为什么它的功能不作为一个简单的程序来实现? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 如何从 systemctl 服务日志中查看最新的 x 行 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - 跳转到文件末尾 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla 为什么真假这么大? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST
  • Martin Hope
    Bagas Sanjaya 为什么 Linux 使用 LF 作为换行符? 2017-12-20 05:48:21 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve