AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / coding / 问题 / 79426134
Accepted
Rasec Malkic
Rasec Malkic
Asked: 2025-02-10 13:25:30 +0800 CST2025-02-10 13:25:30 +0800 CST 2025-02-10 13:25:30 +0800 CST

提取字符串后的行并在单行中打印多个值

  • 772

我有几个文件格式如下

some text
some text
This section is for WXYZ
some text
some text
some text
some text
some text
some text (ABC) some text (CDF)
901 98
some text FFG
some text (FFG)
1 99
some text
some text

我正在尝试打印每个文件

  1. 文件名
  2. 同一行中“This section is for”后面的字符串
  3. 包含以下字符串的行(ABC)
  4. 包含以下字符串的行(FFG)

这是我当前的脚本(基于此线程中的答案)

awk '/This section is for/{sub(/This section is for /,""); print FILENAME "|" $0}
     a{print;a=0} /\(ABC\)/{a=1}
     b{print;b=0} /\(FFG\)/{b=1}
' "testfile.txt"

我得到了这个输出

testfile.txt|WXYZ
901 98
1 99

我希望每个文件的输出都是一行,像这样

testfile.txt|WXYZ|901 98|1 99

如何修改脚本以实现我的目标?谢谢

awk
  • 3 3 个回答
  • 41 Views

3 个回答

  • Voted
  1. Best Answer
    Gilles Quénot
    2025-02-10T13:32:57+08:002025-02-10T13:32:57+08:00

    像这样,使用printf "%s"以避免换行符:

    $ awk '/This section is for/{sub(/This section is for /,""); printf "%s", FILENAME "|" $0}
         a{printf "|%s", $0;a=0} /\(ABC\)/{a=1}
         b{printf "|%s\n", $0;b=0} /\(FFG\)/{b=1}
    ' testfile.txt
    testfile.txt|WXYZ|901 98|1 99
    
    • 1
  2. Ed Morton
    2025-02-10T20:38:16+08:002025-02-10T20:38:16+08:00

    每当我有包含标签值对的输入时,我发现首先构建这些映射的数组(f[]如下)以将值的检测与值的使用分开很有用,然后我可以以任何顺序和任何我喜欢的组合来打印,比较,修改,只需用它们的标签(名称)对数组进行索引即可。

    例如,使用任何 awk:

    awk -v OFS='|' '
        /^This section is for/ { f["sect"] = $NF }
        tag != "" { f[tag] = $0; tag = "" }
        match($0, /\([^()]+)/) { tag = substr($0,RSTART+1,RLENGTH-2) }
        END { print FILENAME, f["sect"], f["ABC"], f["FFG"] }
    ' "testfile.txt"
    testfile.txt|WXYZ|901 98|1 99
    

    |请注意,即使输入文件中缺少任何标签,这也将始终为您提供 4 个分隔的输出字段。

    既然你说过:

    我有几个文件...

    如果你想一次处理所有输入文件,你可以使用 GNU awk 来执行此操作:

    awk -v OFS='|' '
        /^This section is for/ { f["sect"] = $NF }
        tag != "" { f[tag] = $0; tag = "" }
        match($0, /\(([^()]+))/, a) { tag = a[1] }
        ENDFILE {
            print FILENAME, f["sect"], f["ABC"], f["FFG"]
            delete f
        }
    ' *.txt
    

    或者使用任何 awk:

    awk -v OFS='|' '
        FNR == 1 { prt() }
        /^This section is for/ { f["sect"] = $NF }
        tag != "" { f[tag] = $0; tag = "" }
        match($0, /\([^()]+)/) { tag = substr($0,RSTART+1,RLENGTH-2) }
        END { prt() }
    
        function prt() {
            if ( prevFname != "" ) {
                print prevFname, f["sect"], f["ABC"], f["FFG"]
                delete f
            }
            prevFname = FILENAME
        }
    ' *.txt
    
    • 0
  3. Daweo
    2025-02-10T20:53:01+08:002025-02-10T20:53:01+08:00

    GNUAWK确实为 的内容添加了输出行分隔符print,默认情况下为换行符 ( \n),您可以通过设置其他ORS值来更改它,在这种特殊情况下,让testfile.txt内容为

    some text
    some text
    This section is for WXYZ
    some text
    some text
    some text
    some text
    some text
    some text (ABC) some text (CDF)
    901 98
    some text FFG
    some text (FFG)
    1 99
    some text
    some text
    

    然后

    awk 'BEGIN{ORS="|"}/This section is for/{sub(/This section is for /,""); print FILENAME "|" $0}
         a{print;a=0} /\(ABC\)/{a=1}
         b{print;b=0} /\(FFG\)/{b=1}
    ' "testfile.txt"
    

    将给予

    testfile.txt|WXYZ|901 98|1 99|
    

    观察|末尾是否有换行符,这个问题可以通过以下方式修复

    awk 'BEGIN{ORS="|"}/This section is for/{sub(/This section is for /,""); print FILENAME "|" $0}
         a{print;a=0;ORS="\n"} /\(ABC\)/{a=1}
         b{print;b=0;ORS="\n"} /\(FFG\)/{b=1}
    ' "testfile.txt"
    

    给出输出

    testfile.txt|WXYZ|901 98|1 99
    

    解释:我在两行的第一行ORS之后更改为换行符print,与哪一行(a或b)在前无关。如果您想了解有关 ORS 的更多信息,请阅读8 个强大的 Awk 内置变量 - FS、OFS、RS、ORS、NR、NF、FILENAME、FNR

    (在 GNU Awk 5.3.1 中测试)

    • 0

相关问题

  • 当只使用一个打印命令时,awk 打印行两次

  • 解析列值

  • Gnuplot 日期限制(2038?)

  • awk 命令获取具有多列的文件中的唯一行

  • 将文件每一行的后半部分替换为另一个文件中相应行的后半部分[关闭]

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    重新格式化数字,在固定位置插入分隔符

    • 6 个回答
  • Marko Smith

    为什么 C++20 概念会导致循环约束错误,而老式的 SFINAE 不会?

    • 2 个回答
  • Marko Smith

    VScode 自动卸载扩展的问题(Material 主题)

    • 2 个回答
  • Marko Smith

    Vue 3:创建时出错“预期标识符但发现‘导入’”[重复]

    • 1 个回答
  • Marko Smith

    具有指定基础类型但没有枚举器的“枚举类”的用途是什么?

    • 1 个回答
  • Marko Smith

    如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误?

    • 6 个回答
  • Marko Smith

    `(表达式,左值) = 右值` 在 C 或 C++ 中是有效的赋值吗?为什么有些编译器会接受/拒绝它?

    • 3 个回答
  • Marko Smith

    在 C++ 中,一个不执行任何操作的空程序需要 204KB 的堆,但在 C 中则不需要

    • 1 个回答
  • Marko Smith

    PowerBI 目前与 BigQuery 不兼容:Simba 驱动程序与 Windows 更新有关

    • 2 个回答
  • Marko Smith

    AdMob:MobileAds.initialize() - 对于某些设备,“java.lang.Integer 无法转换为 java.lang.String”

    • 1 个回答
  • Martin Hope
    Fantastic Mr Fox msvc std::vector 实现中仅不接受可复制类型 2025-04-23 06:40:49 +0800 CST
  • Martin Hope
    Howard Hinnant 使用 chrono 查找下一个工作日 2025-04-21 08:30:25 +0800 CST
  • Martin Hope
    Fedor 构造函数的成员初始化程序可以包含另一个成员的初始化吗? 2025-04-15 01:01:44 +0800 CST
  • Martin Hope
    Petr Filipský 为什么 C++20 概念会导致循环约束错误,而老式的 SFINAE 不会? 2025-03-23 21:39:40 +0800 CST
  • Martin Hope
    Catskul C++20 是否进行了更改,允许从已知绑定数组“type(&)[N]”转换为未知绑定数组“type(&)[]”? 2025-03-04 06:57:53 +0800 CST
  • Martin Hope
    Stefan Pochmann 为什么 {2,3,10} 和 {x,3,10} (x=2) 的顺序不同? 2025-01-13 23:24:07 +0800 CST
  • Martin Hope
    Chad Feller 在 5.2 版中,bash 条件语句中的 [[ .. ]] 中的分号现在是可选的吗? 2024-10-21 05:50:33 +0800 CST
  • Martin Hope
    Wrench 为什么双破折号 (--) 会导致此 MariaDB 子句评估为 true? 2024-05-05 13:37:20 +0800 CST
  • Martin Hope
    Waket Zheng 为什么 `dict(id=1, **{'id': 2})` 有时会引发 `KeyError: 'id'` 而不是 TypeError? 2024-05-04 14:19:19 +0800 CST
  • Martin Hope
    user924 AdMob:MobileAds.initialize() - 对于某些设备,“java.lang.Integer 无法转换为 java.lang.String” 2024-03-20 03:12:31 +0800 CST

热门标签

python javascript c++ c# java typescript sql reactjs html

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve