AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题 / 411769
Accepted
xMaNuu
xMaNuu
Asked: 2017-12-20 02:02:37 +0800 CST2017-12-20 02:02:37 +0800 CST 2017-12-20 02:02:37 +0800 CST

逐行读取文件并记住文件中的最后一个位置

  • 772

我想从另一个文件的输入中提取日志文件中的某些行。我正在使用这个小命令来做到这一点:

while read line; do 
    grep "$line" service.log; 
done < input_strings.txt > result.txt

input_strings.txt有大约 50 000 个字符串(每行一个)。对于每个字符串,我目前正在搜索巨大的service.log文件(大约 2 000 000 行)。

因此,假设第 1 个字符串input_strings.txt位于service.log第 10 000 行,这一行被写入 my result.txt. 之后,input_strings.txt将在 中搜索的第二个字符串service.log,但从 的第 1 行开始service.log。

我怎么能记住我找到第一个条目的最后一行service.log?这样我就可以在那里开始第二次搜索了?

files read
  • 2 2 个回答
  • 1403 Views

2 个回答

  • Voted
  1. Best Answer
    igal
    2017-12-20T02:09:48+08:002017-12-20T02:09:48+08:00

    如果您想获得匹配项,那么您根本不需要使用循环。grep只使用一个命令会快得多:

    grep -Ff input_strings service.log > results.txt
    

    也就是说,如果你想按照你在问题中所说的去做,那么你可以使用一个变量来跟踪找到最后一个匹配项的行:

    LINE_NUMBER=0
    while read LINE; do
    
        # Search for the next match starting at the line number of the previous match
        MATCH="$(tail -n+${LINE_NUMBER} "service.log" | grep -n "${LINE}" | head -n1)";
    
        # Extract the line number from the match result
        LINE_NUMBER="${MATCH/:*/}";
    
        # Extract the matching string from the match result
        STRING="${x#*:}";
    
        # Output the matching string
        echo "${STRING}";
    
    done < input_strings.txt > result.txt
    
    • 3
  2. ilkkachu
    2017-12-20T02:35:16+08:002017-12-20T02:35:16+08:00

    我猜你想搜索第一个关键字,然后在匹配后的行上继续搜索下一个关键字等,随时打印匹配项。

    给定keywords:

    foo
    bar
    

    并且data:

    bar 0
    foo 1
    bar 1
    foo 2
    

    这里的awk脚本应该做到这一点(用 GNU awk 测试):

    $ awk 'BEGIN {i = j = 0} NR==FNR { k[i++] = $0; next} 
           $0 ~ k[j] {j++; print $0} j >= i {exit}' keywords data 
    foo 1
    bar 1
    

    i从 0 开始,j在第一个文件期间(NR==FNR将当前文件的记录/行号与看到的总行数进行比较),我们将关键字收集到一个数组中。之后,尝试匹配j:th 关键字,并在匹配时打印并增加j。找到所有关键字后退出。

    与 一样grep,这里的关键字实际上是正则表达式模式,尽管awk这里显然是正则表达式。如果要搜索固定字符串,请使用index($0, key)而不是$0 ~ key.


    或者,在开始时不加载关键字:

    $ awk -vkeyfile=keywords 'BEGIN {getline key < keyfile } 
          $0 ~ key {print $0; if (!getline key < keyfile) exit;}' data
    foo 1 
    bar 1
    

    这应该是直截了当的。

    • 1

相关问题

  • 删除文件名后缀最小的文件

  • 列出根据特定内容行排序的文件

  • 如何提前知道 .zip 内部是否有父目录

  • 如何找到特定的文件类型并将它们 tar?

  • du/df 和 ls 报告不同的磁盘使用情况

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    JSON数组使用jq来bash变量

    • 4 个回答
  • Marko Smith

    日期可以为 GMT 时区格式化当前时间吗?[复制]

    • 2 个回答
  • Marko Smith

    bash + 通过 bash 脚本从文件中读取变量和值

    • 4 个回答
  • Marko Smith

    如何复制目录并在同一命令中重命名它?

    • 4 个回答
  • Marko Smith

    ssh 连接。X11 连接因身份验证错误而被拒绝

    • 3 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Marko Smith

    systemctl 命令在 RHEL 6 中不起作用

    • 3 个回答
  • Marko Smith

    rsync 端口 22 和 873 使用

    • 2 个回答
  • Marko Smith

    以 100% 的利用率捕捉 /dev/loop -- 没有可用空间

    • 1 个回答
  • Marko Smith

    jq 打印子对象中所有的键和值

    • 2 个回答
  • Martin Hope
    EHerman JSON数组使用jq来bash变量 2017-12-31 14:50:58 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST
  • Martin Hope
    Drux 日期可以为 GMT 时区格式化当前时间吗?[复制] 2017-12-26 11:35:07 +0800 CST
  • Martin Hope
    AllisonC 如何复制目录并在同一命令中重命名它? 2017-12-22 05:28:06 +0800 CST
  • Martin Hope
    Steve “root”用户的文件权限如何工作? 2017-12-22 02:46:01 +0800 CST
  • Martin Hope
    Bagas Sanjaya 为什么 Linux 使用 LF 作为换行符? 2017-12-20 05:48:21 +0800 CST
  • Martin Hope
    Cbhihe 将默认编辑器更改为 vim for _ sudo systemctl edit [unit-file] _ 2017-12-03 10:11:38 +0800 CST
  • Martin Hope
    showkey 如何下载软件包而不是使用 apt-get 命令安装它? 2017-12-03 02:15:02 +0800 CST
  • Martin Hope
    youxiao 为什么目录 /home、/usr、/var 等都具有相同的 inode 编号 (2)? 2017-12-02 05:33:41 +0800 CST
  • Martin Hope
    user223600 gpg —list-keys 命令在将私钥导入全新安装后输出 uid [未知] 2017-11-26 18:26:02 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve