删除文件名后缀最小的文件

Question

xMaNuu

Asked: 2017-12-20 02:02:37 +0800 CST2017-12-20 02:02:37 +0800 CST 2017-12-20 02:02:37 +0800 CST

逐行读取文件并记住文件中的最后一个位置

772

我想从另一个文件的输入中提取日志文件中的某些行。我正在使用这个小命令来做到这一点：

while read line; do 
    grep "$line" service.log; 
done < input_strings.txt > result.txt

input_strings.txt有大约 50 000 个字符串（每行一个）。对于每个字符串，我目前正在搜索巨大的service.log文件（大约 2 000 000 行）。

因此，假设第 1 个字符串input_strings.txt位于service.log第 10 000 行，这一行被写入 my result.txt. 之后，input_strings.txt将在中搜索的第二个字符串service.log，但从的第 1 行开始service.log。

我怎么能记住我找到第一个条目的最后一行service.log？这样我就可以在那里开始第二次搜索了？

2 个回答

Voted

igal · Answer 1 · 2017-12-20T02:09:48+08:00

Best Answer

igal

2017-12-20T02:09:48+08:002017-12-20T02:09:48+08:00

如果您想获得匹配项，那么您根本不需要使用循环。grep只使用一个命令会快得多：

grep -Ff input_strings service.log > results.txt

也就是说，如果你想按照你在问题中所说的去做，那么你可以使用一个变量来跟踪找到最后一个匹配项的行：

LINE_NUMBER=0
while read LINE; do

    # Search for the next match starting at the line number of the previous match
    MATCH="$(tail -n+${LINE_NUMBER} "service.log" | grep -n "${LINE}" | head -n1)";

    # Extract the line number from the match result
    LINE_NUMBER="${MATCH/:*/}";

    # Extract the matching string from the match result
    STRING="${x#*:}";

    # Output the matching string
    echo "${STRING}";

done < input_strings.txt > result.txt

3

ilkkachu · Answer 2 · 2017-12-20T02:35:16+08:00

我猜你想搜索第一个关键字，然后在匹配后的行上继续搜索下一个关键字等，随时打印匹配项。

给定keywords：

foo
bar

并且data：

bar 0
foo 1
bar 1
foo 2

这里的awk脚本应该做到这一点（用 GNU awk 测试）：

$ awk 'BEGIN {i = j = 0} NR==FNR { k[i++] = $0; next} 
       $0 ~ k[j] {j++; print $0} j >= i {exit}' keywords data 
foo 1
bar 1

i从 0 开始，j在第一个文件期间（NR==FNR将当前文件的记录/行号与看到的总行数进行比较），我们将关键字收集到一个数组中。之后，尝试匹配j:th 关键字，并在匹配时打印并增加j。找到所有关键字后退出。

与一样grep，这里的关键字实际上是正则表达式模式，尽管awk这里显然是正则表达式。如果要搜索固定字符串，请使用index($0, key)而不是$0 ~ key.

或者，在开始时不加载关键字：

$ awk -vkeyfile=keywords 'BEGIN {getline key < keyfile } 
      $0 ~ key {print $0; if (!getline key < keyfile) exit;}' data
foo 1 
bar 1

这应该是直截了当的。

逐行读取文件并记住文件中的最后一个位置

JSON数组使用jq来bash变量

日期可以为 GMT 时区格式化当前时间吗？[复制]

bash + 通过 bash 脚本从文件中读取变量和值

如何复制目录并在同一命令中重命名它？

ssh 连接。X11 连接因身份验证错误而被拒绝

如何下载软件包而不是使用 apt-get 命令安装它？

systemctl 命令在 RHEL 6 中不起作用

rsync 端口 22 和 873 使用

以 100% 的利用率捕捉 /dev/loop -- 没有可用空间

jq 打印子对象中所有的键和值

逐行读取文件并记住文件中的最后一个位置

2 个回答

相关问题