(macOS Bash) 2个看似相同的字符串并不相等，仅通过“set -x”显示差异

Question

Chuepapiii

Asked: 2025-02-18 14:44:10 +0800 CST2025-02-18 14:44:10 +0800 CST 2025-02-18 14:44:10 +0800 CST

如何使用 grep 将一个文件中的模式与另一个文件中的特定列进行匹配？

772

file1，每行包含一个字符串。我想检查 file2 的第二列中是否存在每个字符串。file2 每行包含两个以空格分隔的字符串，但有些行可能在第一列之前有前导空格。

我只想使用 grep 和/或 cut 来执行匹配并将匹配的行从 file2 输出到 newFile.txt，确保整个单词匹配（-w）。

我试过了

grep -wF -f file1 file2 > newFile.txt

但由于文件大小，终端无限运行。

我也尝试过

grep -wF -f <(cut -d ' ' -f 2 file2) | grep -wF -f - file2 > newFile.txt

这只对 file2 中的某些行有效，因为某些行在 2 个字符串之前有多个空格，尽管这些字符串仅由一个空格分隔。

文件1：

 aaa
 bbb
 ccc

文件2：

 a aaa (should match) 
     b bbb (should match and does but the former spaces throws off cut -d, resulting in incomplete output of line in the newFile.txt)
 c cc (should not match)

问题：如何高效地提取并匹配 file2.txt 第二列中的整个单词，同时处理不一致的前导空格？我更喜欢使用 grep 和/或 cut，但我愿意接受一些小的修改。

2 个回答

Voted

Zakhar Neverov · Answer 1 · 2025-02-18T15:16:45+08:00

Zakhar Neverov

2025-02-18T15:16:45+08:002025-02-18T15:16:45+08:00

我倾向于使用 awk，在这种情况下我使用了粘贴命令，我猜您可以使用类似这样的正则表达式：

pattern=$(paste -sd'|' file1)
grep -E "^[[:space:]]*\S+[[:space:]]+($pattern)\b" file2 > newfile.txt

如果我理解正确的话...这应该从 file2 中提取行，其中第二列与 file1 条目之一完全匹配，即使前导空格

2

Ed Morton · Answer 2 · 2025-02-18T21:36:39+08:00

寻求帮助以使用 grep 和 cut 高效地完成这项工作就像寻求帮助用厨房叉子和回形针建造花园围栏一样。它们根本不是这项工作的合适工具，因此无法有效地将它们用于这项工作，如果不添加更多工具来帮助它们，它们也无法稳健地（或可移植地）使用。相比之下，仅使用 awk 的解决方案将是简单、高效和可移植的，例如，使用任何 POSIX awk 都可以运行以下命令：

$ awk 'NR == FNR{ tgts[$1]; next } $2 in tgts' file1 file2
 a aaa (should match)
     b bbb (should match and does but the former spaces throws off cut -d, resulting in incomplete output of line in the newFile.txt)

在我注意到 OP 之前的原始答案是“我想检查每个字符串是否存在于 file2 的第二列中。file2 每行包含两个单个空格分隔的字符串”并且认为他们想要匹配 file2 中的所有“单词”：

$ cat tst.awk
NR == FNR {
    tgts[$1]
    next
}
{
    split($0, words, /[^[:alnum:]_]+/)
    for ( i in words ) {
        if ( words[i] in tgts ) {
            print
            next
        }
    }
}

$ awk -f tst.awk file1 file2
 a aaa (should match)
     b bbb (should match and does but the former spaces throws off cut -d, resulting in incomplete output of line in the newFile.txt)

如果您有比字母数字更多的字符，并且_您认为它们是“单词”的一部分，那么只需更改[^[:alnum:]_]为包含它们，例如，如果“单词”可以包含.，-然后将其更改为[^[:alnum:]_.-]

如何使用 grep 将一个文件中的模式与另一个文件中的特定列进行匹配？

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

如何使用 grep 将一个文件中的模式与另一个文件中的特定列进行匹配？

2 个回答

相关问题