当只使用一个打印命令时，awk 打印行两次

Question

Roger Costello

Asked: 2024-12-29 22:14:15 +0800 CST2024-12-29 22:14:15 +0800 CST 2024-12-29 22:14:15 +0800 CST

如何向 AWK 程序输入一系列字段名称并让 AWK 程序检查文件中是否存在该字段名称？

772

field-names.txt 包含字段名称列表：

AB_CODE
ACFT_CODE
AC_TYPE
ADD_INFO
AKA
ALT
ALT1_DESC
ALT2_DESC
ALT3_DESC

对于每个字段名称，我想打印第一行包含此字段名称的文件（以空格分隔的字段列表）。以下是我尝试的：

在bash命令行我输入了以下内容：

cat field-names.txt | awk 'BEGIN { getline fieldname; print fieldname }
        
NR == 1 && $0 ~ /fieldname/ { print FILENAME }' **/*.TXT

这会产生错误的结果。正确的做法是什么？

4 个回答

Voted

anubhava · Answer 1 · 2024-12-29T22:56:18+08:00

Best Answer

anubhava

2024-12-29T22:56:18+08:002024-12-29T22:56:18+08:00

这个awk解决方案应该适合你：

awk 'FNR == NR {
   rx = (rx == "" ? "" : rx "|") $1
   next
}
FNR == 1 && " " $0 " " ~ " (" rx ") " {
   print FILENAME
}' field-names.txt **/*.TXT

首先，我们在的第一个块中的|每一行之间构建一个正则表达式。然后我们使用该正则表达式匹配使用该正则表达式的每个第一行。我们在每个第一行和正则表达式的前缀和后缀上空格，以确保我们只匹配整个单词而不是部分单词。field-names.txtFNR == NR

为了优化，我们可以这样做，只构建一次完整的正则表达式：

awk 'FNR == NR {
   rx = (rx == "" ? "" : rx "|") $1
   pNR = NR
   next
}
NR == pNR+1 {
   rx = " (" rx ") "
}
FNR == 1 && " " $0 " " ~ rx {
   print FILENAME
   nextfile
}' field-names.txt **/*.TXT

3

Guillaume Outters · Answer 2 · 2024-12-30T06:19:54+08:00

awk \
'BEGIN {
    # afre = All Fields RegExp
    while((getline < "field-names.txt") > 0) afre = afre ? afre"|"$0 : $0;
    if(!afre) { print "# field-names.txt should contain at least one field name" > "/dev/stderr"; exit(1); }
    afre = "(^| )("afre")( |$)";
}
$0 ~ afre { print FILENAME; }
{ nextfile; }' **/*.TXT

(afre 的计算由@Ed Morton 的评论提供)

我们在开始时花一次时间来计算所关注的所有字段中的任何一个的正则表达式，
以便主“循环”可以以最大速度运行。

由于我们只查看第一行，查找完毕后，我们会无条件使用 nextfile切换到下一个输入文件，无论是否匹配。

选择哪种解决方案？

因此，与@anubhava 的解决方案（我也喜欢并投票赞成：对于我的前两个要点，选择哪种解决方案取决于个人喜好）的区别在于：

将脚本专用于查找（不要将查找与正则表达式构建混合）
使用^和$作为第一个或最后一个字段进行匹配
，但我经常也使用额外的空格技巧
无论是否匹配，都执行 nextfile 操作（没有必要继续读取第 1 行不匹配的文件的所有行）

进一步优化

请注意，根据 awk 的实现，$0 ~ afre 可能会在每一行重新编译正则表达式（因为它是一个变量，它可以变化，因此如果 awk 想要缓存正则表达式的编译版本，它必须检查它没有改变）。

当你通过 shell 运行它时，你可以强制它使用固定的正则表达式（更容易优化）（不可否认的是可读性较差）：

awk \
'/(^| )('"`tr \\\\012 \| < field-names.txt | sed -e 's/|$//'`"')( |$)/ { print FILENAME; }
{ nextfile; }' \
**/*.TXT

Ed Morton · Answer 3 · 2024-12-30T20:59:36+08:00

假设您想要将字段名称的映射输出到它们出现的文件中，然后使用任何 awk（未经测试）：

awk '
    NR == FNR {
        tgtFields[$0]
        next
    }
    FNR == 1 {
        for ( fieldNr=1; fieldNr<=NF; fieldNr++ ) {
            field = $fieldNr
            if ( field in tgtFields ) {
                files[field,++numFiles[field]] = FILENAME
            }
        }
        nextfile
    }
    END {
        for ( field in tgtFields ) {
            if ( numFiles[field] == 0 ) {
                files[field,++numFiles[field]] = "* Not found *"
            }
            for ( fileNr=1; fileNr<=numFiles[field]; fileNr++ ) {
                file = files[field,fileNr]
                print field, file
            }
        }
    }
' field-names.txt **/*.TXT

无论您的目标文件名是否包含正则表达式元字符，这都可以起作用.。

更改"* Not found *"为其他字符串或执行其他任何您喜欢的操作来处理任何输入文件中不存在的目标字段。如果您想在字段名称和每个关联文件名之间使用除空白字符之外的其他分隔符，只需将其设置OFS为您喜欢的任何字符串即可。

jhnc · Answer 4 · 2024-12-29T23:26:22+08:00

jhnc

2024-12-29T23:26:22+08:002024-12-29T23:26:22+08:00

另一种方法是不使用正则表达式，因为看起来字段名称列表只是简单的字符串：

awk '
    NR==FNR {
        fieldnames[$0]
        next
    }
    
    FNR==1 {
        for (i=NF; i>0 && !($i in fieldnames); --i)
            ;
        if (i)
            print FILENAME
        nextfile
    }
' field-names.txt **/*.TXT

从第一个文件加载字段名称列表
处理每个后续文件的第一行
- 检查列表中是否有任何字段
- 如果 i>0，则循环提前中止，因为找到了匹配项
- 不用看剩下的几行

此代码还接受行首和行末的字段名称。

1

如何向 AWK 程序输入一系列字段名称并让 AWK 程序检查文件中是否存在该字段名称？

选择哪种解决方案？

进一步优化

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

如何向 AWK 程序输入一系列字段名称并让 AWK 程序检查文件中是否存在该字段名称？

4 个回答

选择哪种解决方案？

进一步优化

相关问题