(macOS Bash) 2个看似相同的字符串并不相等，仅通过“set -x”显示差异

Question

Fravadona

Asked: 2024-05-26 16:00:49 +0800 CST2024-05-26 16:00:49 +0800 CST 2024-05-26 16:00:49 +0800 CST

AWK 相当于 `read -r __ 余数`

772

假设您有一个文件，其中包含 N 个以空格分隔的列和一个附加列，其中包含您想要保留的空格。

N = 2 的示例：

1.1 1.2 data for row1
  2.1   2.2    data   for    row2
?  ?   data   for   row3
 \ * data for   row4

我想输出：

data for row1
data   for    row2
data   for   row3
data for   row4

在 shell 中，您可以使用以下命令轻松完成此操作：

while read -r _ _ data
do
    printf "%s\n" "$data"
done < data.txt

但awk这样做有点困难。有没有一种方法awk可以只拆分前 N 列？

3 个回答

Voted

The fourth bird · Answer 1 · 2024-05-26T16:20:52+08:00

The fourth bird

2024-05-26T16:20:52+08:002024-05-26T16:20:52+08:00

如果数据由 1 个或多个空格分隔，则可以使用 sub 删除前 1 或 2 列，其中该列是由非空白字符组成的单个单词。

由于您的示例 shell 脚本也会在只有一个单词的情况下删除该单词，因此您可以对第二个单词使用可选部分。

awk '{
    sub(/^[[:space:]]*[^[:space:]]+([[:space:]]+[^[:space:]]+)?[[:space:]]*/, "");
}1' file

模式匹配：

^字符串的开头
[[:space:]]*[^[:space:]]+匹配可选空格和 1+ 个非空白字符
([[:space:]]+[^[:space:]]+)?可选择匹配 1+ 个非空白字符，后跟 1+ 个空格
[[:space:]]*匹配尾随空格

输入

1.1 1.2 data for row1
  2.1   2.2    data   for    row2
test

?  ?   data   for   row3
 \ * data for   row4

输出

data for row1
data   for    row2


data   for   row3
data for   row4

2

Daweo · Answer 2 · 2024-05-26T19:06:55+08:00

免责声明：此解决方案假设您使用默认的 GNUAWK对字段的理解，即字段分隔符是一个或多个空白字符，如果这不成立，请完全忽略此答案。

awk 中有没有一种方法可以只拆分前 N 列？

如果您先验知道 N，您可以准备正则表达式并将其用于subString Function，特别是，令file.txtcontent 为

1.1 1.2 data for row1
  2.1   2.2    data   for    row2
?  ?   data   for   row3
 \ * data for   row4

然后

awk '{sub(/[[:space:]]*[^[:space:]]+[[:space:]]+[^[:space:]]+[[:space:]]+/,"");print}' file.txt

给出输出

data for row1
data   for    row2
data   for   row3
data for   row4

说明：正则表达式由空白字符[[:space:]]和非空白字符交替组成[^[:space:]]，前导空白字符是可选的，因此数量为零或多个（ *），全部其他或 1 或多个（）。+

如果您确实需要有简单的方法来调整 N 使用for循环来逐一删除最左边的列，例如，如果您需要 N=3 并按file.txt如上所示进行处理，您可以这样做

awk 'BEGIN{n=3}{for(i=0;i<n;i+=1){sub(/[[:space:]]*[^[:space:]]+[[:space:]]+/,"")};print}' file.txt

给出输出

for row1
for    row2
for   row3
for   row4

说明：这确实删除了每轮循环中最左边的列和相邻的字段分隔符for。

（在 GNU Awk 5.1.0 中测试）

Ed Morton · Answer 3 · 2024-05-27T01:01:52+08:00

awk 语言的前提是，应该只存在一些结构来完成其他结构不易完成的事情，以保持语言简洁，从而避免其他一些工具/语言所遭受的语言膨胀。这只是有一个函数可以完成的众多事情之一，但是编写您实际需要执行的任何操作都非常容易，可以跳过任何特定输入的几个字段，这只会造成混乱语言，如果存在一个函数可以做到这一点，如果我们有一个函数可以做到这一点，那么还应该创建数百个其他函数来完成所有其他事情，如果有一个函数可以做到这一点那就太好了。

使用 GNU awk 进行\s/\S速记

$ awk 'sub(/^\s*(\S+\s+){2}/,"")' file
data for row1
data   for    row2
data   for   row3
data for   row4

与任何 POSIX awk 相同：

$ awk 'sub(/^[[:space:]]*([^[:space:]]+[[:space:]]+){2}/,"")' file
data for row1
data   for    row2
data   for   row3
data for   row4

请注意，上面的 awk 输出将保留任何尾随空格，这与 shell 读取循环不同。

这两个字符都依赖于默认的空白字符，但很容易修改为可以在括号表达式（或相反的字符类）中否定的FS任何其他字符。FS

请注意，整个方法依赖于能够否定括号表达式中的，因此如果是任意正则表达式甚至是多字符字符串，则FS该方法将不起作用，但您要求复制的 shell 读取循环也不会起作用FS的函数.

如果你碰巧有 a ，FS你不能只在括号表达式中取反，例如，如果你的字段由 3 个数字或 2 个标点字符分隔，那么你会得到如下内容：

$ echo 'abc345def;%ghi+klm;%nop345qrs' |
    awk -v FS='[[:digit:]]{3}|[[:punct:]]{2}' '{for (i=1; i<=NF; i++) print i, $i}'
1 abc
2 def
3 ghi+klm
4 nop
5 qrs

那么这里有一个更通用的方法，使用 GNU awk 作为第四个参数split()：

$ echo 'abc345def;%ghi+klm;%nop345qrs' |
    awk -v FS='[[:digit:]]{3}|[[:punct:]]{2}' '{
        split($0,f,FS,s)
        print substr( $0, length(s[0] f[1] s[1] f[2] s[2]) + 1 )
    }'
ghi+klm;%nop345qrs

AWK 相当于 `read -r __ 余数`

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

AWK 相当于 `read -r __ 余数`

3 个回答

相关问题