(macOS Bash) 2个看似相同的字符串并不相等，仅通过“set -x”显示差异

Question

Arindrew

Asked: 2025-02-27 02:42:27 +0800 CST2025-02-27 02:42:27 +0800 CST 2025-02-27 02:42:27 +0800 CST

使用 awk 根据特定分隔符将文件中的每一行输出到新文件名

772

我有以下以制表符作为字段分隔符的文件：

header1 header2 header3 header4 header5
1field1 1field2 1field3 1field4 1field5
2field1 2field2 2field3 2field4 2field5
3field1 3field2 3field3 3field4 3field5
4field1 4field2 4field3 4field4 4field5

并希望将每一行输出到一个新文件（跳过第一行）。每个新文件将以第 1 和第 5 个字段命名，并使用下划线分隔符。第 1 行（技术上是第 2 行）的文件将命名为“1field1_1field5.txt”，并包含该行的所有字段，依此类推。我有以下 awk 命令，可将正确的文件名输出到标准输出

awk -v FS='\t' -v OFS='_' 'NR>1 {print ($1,$5 ".txt") }'

但是当我尝试将文本输出到文件名中时

awk -v FS='\t' -v OFS='_' 'NR>1 {print > ($1,$5 ".txt") }'

我收到以下错误

awk: cmd. line:1: NR>1 { print > ($1,$5 ".txt") }
awk: cmd. line:1:                               ^ syntax error

我已经从 10 篇不同的文章中复制/粘贴了内容才到达这里，但我的格式不正确，无法解决。

3 个回答

Voted

Barmar · Answer 1 · 2025-02-27T03:39:36+08:00

Barmar

2025-02-27T03:39:36+08:002025-02-27T03:39:36+08:00

该表达式($1,$5 ".txt")无效。

您可能认为逗号运算符将其参数连接起来OFS作为分隔符。但事实并非如此OFS。当您为命令提供多个参数时，它会用作分隔符print，但不用于表达式中。

在表达式中，唯一的连接运算符是将子表达式彼此相邻。如果要连接，OFS则必须明确编写。

awk -v FS='\t' -v OFS='_' 'NR>1 {print > ($1 OFS $5 ".txt") }'

您也可以只写文字，而不用OFS。

awk -v FS='\t' -v OFS='_' 'NR>1 {print > ($1 "_" $5 ".txt") }'

3

Ed Morton · Answer 2 · 2025-02-27T04:05:32+08:00

Best Answer

Ed Morton

2025-02-27T04:05:32+08:002025-02-27T04:05:32+08:00

使用任何 awk，如果每行的 $1 和 $5 字段都是唯一的，则应该执行以下操作：

awk -F '\t' 'NR>1 { out=$1 "_" $5 ".txt"; print > out; close(out) }'

否则：

awk -F '\t' 'NR>1 { out=$1 "_" $5 ".txt"; if (!seen[out]++) printf "" > out; print >> out; close(out) }'

这close()是为了避免输入过大时出现“打开文件过多”的错误。这printf "" > out是为了清空/初始化输出文件，以防它在脚本运行前已经存在。

使用 GNU awk 你可以不用close()：

awk -F '\t' 'NR>1 { print > ($1 "_" $5 ".txt") }'

但是当脚本尝试根据需要在内部处理打开/关闭所有输出文件时，其速度会因大量输入而显著减慢。

3

Daweo · Answer 3 · 2025-02-27T19:34:05+08:00

Daweo

2025-02-27T19:34:05+08:002025-02-27T19:34:05+08:00

在这种情况下

awk -v FS='\t' -v OFS='_' 'NR>1 {print ($1,$5 ".txt") }'

你正在调用print带有 2 个参数的函数，以及和$1的连接。而在$5.txt

awk -v FS='\t' -v OFS='_' 'NR>1 {print > ($1,$5 ".txt") }'

没有可以存储参数的函数。您可以使用sprintf字符串函数来格式化并按照以下方式返回字符串

awk -v FS='\t' -v OFS='_' 'NR>1 {print > sprintf("%s%s%s.txt",$1,OFS,$5) }'

2

使用 awk 根据特定分隔符将文件中的每一行输出到新文件名

为什么 C++20 概念会导致循环约束错误，而老式的 SFINAE 不会？

VScode 自动卸载扩展的问题（Material 主题）

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

使用 awk 根据特定分隔符将文件中的每一行输出到新文件名

3 个回答

相关问题