如何让 grep 只显示匹配的正则表达式？

Question

Adenano

Asked: 2023-03-30 02:24:26 +0800 CST2023-03-30 02:24:26 +0800 CST 2023-03-30 02:24:26 +0800 CST

grep PCRE 仍然贪婪

772

我正在搜索一个多行文本文件，并希望匹配来自某个单词的字符串，直到另一个单词的第一个匹配：

start
word1
word1
word1
word1
end
word2
word2
word2
start
word3
word3
word3
end

这是我使用的：grep -Pzo "(?s)start.*?end" file.txt

它从头到尾匹配上面文本字符串中的所有内容，而我只想匹配到第一次end出现，即：

start
word1
word1
word1
word1
end

我究竟做错了什么？

不知何故，非贪婪?量词没有像我预期的那样工作。

感谢您的时间和贡献！

1 个回答

Voted

steeldriver · Answer 1 · 2023-03-30T03:24:55+08:00

贪心匹配将包括从第一个start到最后一个的所有内容end，因此：

$ grep -Pzo '(?s)start.*end' file.txt
start                                                                                                                                                                                        
word1                                                                                                                                                                                        
word1                                                                                                                                                                                        
word1                                                                                                                                                                                        
word1                                                                                                                                                                                        
end                                                                                                                                                                                          
word2                                                                                                                                                                                        
word2                                                                                                                                                                                        
word2                                                                                                                                                                                        
start                                                                                                                                                                                        
word3                                                                                                                                                                                        
word3                                                                                                                                                                                        
word3                                                                                                                                                                                        
end

您实际看到的是两个单独的非贪婪匹配，每个选项在单独的“行”上输出-o- 除了-Z，“行”实际上由空字符而不是换行符表示：

$ grep -Pzo '(?s)start.*?end' file.txt
start                                                                                                                                                                                        
word1                                                                                                                                                                                        
word1                                                                                                                                                                                        
word1                                                                                                                                                                                        
word1                                                                                                                                                                                        
endstart                                                                                                                                                                                     
word3                                                                                                                                                                                        
word3                                                                                                                                                                                        
word3                                                                                                                                                                                        
end

-b由于我们在这里看不到空字节，如果在“行”中添加以指示两个匹配项的字节偏移量会更清楚：

$ grep -Pzo -b '(?s)start.*?end' file.txt
0:start                                                                                                                                                                                      
word1                                                                                                                                                                                        
word1                                                                                                                                                                                        
word1                                                                                                                                                                                        
word1                                                                                                                                                                                        
end52:start                                                                                                                                                                                  
word3                                                                                                                                                                                        
word3                                                                                                                                                                                        
word3                                                                                                                                                                                        
end

由于-o输出是空分隔的，您可以通过管道传递结果head -z以获取第一个匹配项：

$ grep -Pzo '(?s)start.*?end' file.txt | head -z -n 1
start
word1
word1
word1
word1
end

或者你可以使用 perl 本身

perl -0777 -nE 'say for /(start.*?end)/s' file.txt

尽管有for循环，但由于g省略了标志，它只打印一个匹配项。

grep PCRE 仍然贪婪

如何运行 .sh 脚本？

如何安装 .tar.gz（或 .tar.bz2）文件？

如何列出所有已安装的软件包

无法锁定管理目录 (/var/lib/dpkg/) 是另一个进程在使用它吗？

grep PCRE 仍然贪婪

1 个回答

相关问题