当只使用一个打印命令时，awk 打印行两次

Question

Rasec Malkic

Asked: 2025-02-10 13:25:30 +0800 CST2025-02-10 13:25:30 +0800 CST 2025-02-10 13:25:30 +0800 CST

提取字符串后的行并在单行中打印多个值

772

我有几个文件格式如下

some text
some text
This section is for WXYZ
some text
some text
some text
some text
some text
some text (ABC) some text (CDF)
901 98
some text FFG
some text (FFG)
1 99
some text
some text

我正在尝试打印每个文件

文件名
同一行中“This section is for”后面的字符串
包含以下字符串的行(ABC)
包含以下字符串的行(FFG)

这是我当前的脚本（基于此线程中的答案）

awk '/This section is for/{sub(/This section is for /,""); print FILENAME "|" $0}
     a{print;a=0} /\(ABC\)/{a=1}
     b{print;b=0} /\(FFG\)/{b=1}
' "testfile.txt"

我得到了这个输出

testfile.txt|WXYZ
901 98
1 99

我希望每个文件的输出都是一行，像这样

testfile.txt|WXYZ|901 98|1 99

如何修改脚本以实现我的目标？谢谢

3 个回答

Voted

Gilles Quénot · Answer 1 · 2025-02-10T13:32:57+08:00

Best Answer

Gilles Quénot

2025-02-10T13:32:57+08:002025-02-10T13:32:57+08:00

像这样，使用printf "%s"以避免换行符：

$ awk '/This section is for/{sub(/This section is for /,""); printf "%s", FILENAME "|" $0}
     a{printf "|%s", $0;a=0} /\(ABC\)/{a=1}
     b{printf "|%s\n", $0;b=0} /\(FFG\)/{b=1}
' testfile.txt
testfile.txt|WXYZ|901 98|1 99

1

Ed Morton · Answer 2 · 2025-02-10T20:38:16+08:00

每当我有包含标签值对的输入时，我发现首先构建这些映射的数组（f[]如下）以将值的检测与值的使用分开很有用，然后我可以以任何顺序和任何我喜欢的组合来打印，比较，修改，只需用它们的标签（名称）对数组进行索引即可。

例如，使用任何 awk：

awk -v OFS='|' '
    /^This section is for/ { f["sect"] = $NF }
    tag != "" { f[tag] = $0; tag = "" }
    match($0, /\([^()]+)/) { tag = substr($0,RSTART+1,RLENGTH-2) }
    END { print FILENAME, f["sect"], f["ABC"], f["FFG"] }
' "testfile.txt"
testfile.txt|WXYZ|901 98|1 99

|请注意，即使输入文件中缺少任何标签，这也将始终为您提供 4 个分隔的输出字段。

既然你说过：

我有几个文件...

如果你想一次处理所有输入文件，你可以使用 GNU awk 来执行此操作：

awk -v OFS='|' '
    /^This section is for/ { f["sect"] = $NF }
    tag != "" { f[tag] = $0; tag = "" }
    match($0, /\(([^()]+))/, a) { tag = a[1] }
    ENDFILE {
        print FILENAME, f["sect"], f["ABC"], f["FFG"]
        delete f
    }
' *.txt

或者使用任何 awk：

awk -v OFS='|' '
    FNR == 1 { prt() }
    /^This section is for/ { f["sect"] = $NF }
    tag != "" { f[tag] = $0; tag = "" }
    match($0, /\([^()]+)/) { tag = substr($0,RSTART+1,RLENGTH-2) }
    END { prt() }

    function prt() {
        if ( prevFname != "" ) {
            print prevFname, f["sect"], f["ABC"], f["FFG"]
            delete f
        }
        prevFname = FILENAME
    }
' *.txt

Daweo · Answer 3 · 2025-02-10T20:53:01+08:00

GNUAWK确实为的内容添加了输出行分隔符print，默认情况下为换行符 ( \n)，您可以通过设置其他ORS值来更改它，在这种特殊情况下，让testfile.txt内容为

some text
some text
This section is for WXYZ
some text
some text
some text
some text
some text
some text (ABC) some text (CDF)
901 98
some text FFG
some text (FFG)
1 99
some text
some text

然后

awk 'BEGIN{ORS="|"}/This section is for/{sub(/This section is for /,""); print FILENAME "|" $0}
     a{print;a=0} /\(ABC\)/{a=1}
     b{print;b=0} /\(FFG\)/{b=1}
' "testfile.txt"

将给予

testfile.txt|WXYZ|901 98|1 99|

观察|末尾是否有换行符，这个问题可以通过以下方式修复

awk 'BEGIN{ORS="|"}/This section is for/{sub(/This section is for /,""); print FILENAME "|" $0}
     a{print;a=0;ORS="\n"} /\(ABC\)/{a=1}
     b{print;b=0;ORS="\n"} /\(FFG\)/{b=1}
' "testfile.txt"

给出输出

testfile.txt|WXYZ|901 98|1 99

解释：我在两行的第一行ORS之后更改为换行符print，与哪一行（a或b）在前无关。如果您想了解有关 ORS 的更多信息，请阅读8 个强大的 Awk 内置变量 - FS、OFS、RS、ORS、NR、NF、FILENAME、FNR

（在 GNU Awk 5.3.1 中测试）

提取字符串后的行并在单行中打印多个值

重新格式化数字，在固定位置插入分隔符

为什么 C++20 概念会导致循环约束错误，而老式的 SFINAE 不会？

VScode 自动卸载扩展的问题（Material 主题）

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

提取字符串后的行并在单行中打印多个值

3 个回答

相关问题