我正在尝试使用sed
打印所有行,直到但不包括特定模式。我不明白为什么以下不起作用:
sed '/PATTERN/{d;q}' file
根据我对 sed 脚本的理解,这个表达式应该会导致以下情况:
- 当一行匹配
/PATTERN/
时,执行由命令组成的组d
删除模式空间(= 当前行)q
打印当前模式空间后的uit
孤立地,两者都/PATTERN/d
起作用/PATTERN/q
;也就是说,d
删除有问题的行,并q
导致在打印该行之后sed
终止,如记录的那样。但是将这两个操作组合在一个块中似乎会导致被忽略。q
我知道我可以使用Q
而不是{d;q}
作为 GNU 扩展(这可以按预期工作!)但我有兴趣了解为什么上述内容不起作用,以及我以何种方式误解了文档。
我的实际用例(只是稍微)复杂一些,因为文件的第一行实际上与模式匹配,我跳过了它(在做了一些替换之后):
sed -e '1{s/>21/>chr21/; n}' -e '/>/{d;q}' in.fasta >out.fasta
但是上面的简化案例表现出相同的行为。
要输出文件的所有行直到匹配特定模式(并且不输出匹配的行),您可以使用
在这里,每个循环结束时模式空间的默认输出被禁用
-n
。相反,我们用 . 显式输出每一行p
。如果给定的模式匹配,我们用 停止处理q
。您的实际更长的命令,它将 21 号染色体的名称从 just 更改
21
为chr21
fasta 文件的第一行,然后继续提取该染色体的 DNA 直到它到达下一个 fasta 标题行,可以写为或者
您的原始表达式的问题是
d
开始一个新的循环(即,它强制将下一行读入模式空间并且跳转到脚本的开头)。这意味着q
永远不会被执行。请注意,为了在非 GNU 系统上语法正确,您的原始脚本应该看起来像
/PATTERN/ { d; q; }
. 注意;
后面的添加q
(空格不重要)。d
不只是删除模式空间:来自POSIX 规范(我的重点)
该
q
命令无法访问。您可以使用双地址形式获得相同的输出(仅在第一个匹配之前的那些行):
但与 using 的方法不同
q
,这意味着sed
继续读取每一行输入。这可能会对大型输入文件或从管道读取时产生影响。