grep 从 $START 到 $END 的一组行并且在 $MIDDLE 中包含匹配项

Question

Vinod Kumar

Asked: 2023-03-21 22:13:58 +0800 CST2023-03-21 22:13:58 +0800 CST 2023-03-21 22:13:58 +0800 CST

使用“sed”在 TSV 文件中的字段末尾插入文本

772

我想使用sed带有通配符表达式的命令在 TSV 文件中插入字符：

我有一个这样的文件：

Marker  Pvalue  Trait   Chr Pos
S3_16887238 6.172847e-09    Total_Soil_S    3   16887238
S3_16887238 6.172847e-09    Total_Soil_Pa   3   16887238
S3_16887238 6.172847e-09    Total_Soil_Cl   3   16887238

我想_All在第三列的所有文本末尾添加如下内容：

Marker  Pvalue  Trait   Chr Pos
S3_16887238 6.172847e-09    Total_Soil_S_All    3   16887238
S3_16887238 6.172847e-09    Total_Soil_Pa_All   3   16887238
S3_16887238 6.172847e-09    Total_Soil_Cl_All   3   16887238

我正在使用此命令但它不起作用：

sed -i 's/Total_Soil_\(.*\)/&_\1_All/g' top1.txt

这只是一个示例文件，除了S, Pa, 和Cl.

3 个回答

Voted

Kusalananda · Answer 1 · 2023-03-21T22:27:05+08:00

我会避免处理表格数据，sed因为很难正确定位要修改的数据中的确切位置。该sed实用程序更适合处理文本等非结构化数据。

使用Miller（mlr一种专门用于处理结构化数据的工具）将字符串附加到每个 TSV 记录字段_All中数据的末尾：Trait

$ mlr --tsv put '$Trait .= "_All"' file
Marker  Pvalue  Trait   Chr     Pos
S3_16887238     6.172847e-09    Total_Soil_S_All        3       16887238
S3_16887238     6.172847e-09    Total_Soil_Pa_All       3       16887238
S3_16887238     6.172847e-09    Total_Soil_Cl_All       3       16887238

mlr与其选项一起使用-I以就地进行更改。

您是否需要确保仅当字段以字符串开头时才修改该字段Total_Soil，然后使用

mlr --tsv put '$Trait =~ "^Total_Soil" { $Trait .= "_All" }' file

使用awk，将字符串附加_All到每条记录的第三个制表符分隔字段中的数据末尾：

$ awk -F '\t' 'BEGIN { OFS=FS } NR > 1 { $3 = $3 "_All" }; 1' file
Marker  Pvalue  Trait       Chr     Pos
S3_16887238     6.172847e-09    Total_Soil_S_All        3       16887238
S3_16887238     6.172847e-09    Total_Soil_Pa_All       3       16887238
S3_16887238     6.172847e-09    Total_Soil_Cl_All       3       16887238

1代码末尾的尾随awk导致无条件输出修改后的记录。在某种程度上，它是一种速记方式{ print }。请注意，我们明确需要避免修改标头。我们通过仅在测试计算结果为真（是当前记录的序号）时测试使用NR > 1和修改字段来执行此操作。NR

将输出重定向到新文件，然后将新文件重命名为原始名称。或者，如果您使用的是 GNU awk，请-i inplace按照另一个问题+答案中的说明使用。

同样，如果您需要确保只修改以 string 开头的第 3 个字段Total_Soil，则使用

awk -F '\t' 'BEGIN { OFS=FS } NR > 1 && $3 ~ /^Total_Soil/ { $3 = $3 "_All" }; 1' file

以几乎相同的方式使用 Perl awk：

$ perl -F'\t' -e 'BEGIN { $" = "\t" } if ($. > 1) { $F[2] .= "_All" } print "@F"' file
Marker  Pvalue  Trait   Chr     Pos
S3_16887238     6.172847e-09    Total_Soil_S_All        3       16887238
S3_16887238     6.172847e-09    Total_Soil_Pa_All       3       16887238
S3_16887238     6.172847e-09    Total_Soil_Cl_All       3       16887238

确保我们只修改Total_Soil数据：

perl -F'\t' -e 'BEGIN { $" = "\t" } if ($. > 1 && $F[2] =~ /^Total_Soil/) { $F[2] .= "_All" } print "@F"' file

jubilatious1 · Answer 2 · 2023-03-22T02:33:00+08:00

使用Raku（以前称为 Perl_6）

~$ raku -ne 'BEGIN put get; my @a = .split("\t"); @a.[2] = @a.[2] ~ "_All"; put @a.join("\t");' file

Raku 是 Perl 编程语言家族的一员。Raku 的一个优势是对内置 Unicode 的高级支持，不需要外部库（或特殊标志）。

以上是@Kusalananda 出色的 Perl(5) 答案的相当直接的翻译。-ne使用Raku 的非自动打印“linewise”命令行标志。要逐字打印标题行，请使用将(print-using-terminator) 放在第一行的BEGIN移相器。put getget

linewise 命令的主体是这样工作的：声明一个数组并为其分配标签上的my @a输入行[是 ] 的缩写。$_.split("\t").split("\t")$_.split("\t")

取@a.[2]第三个元素（即列）并用相同的元素覆盖它，并@a.[2] ~ "_All"用尾随_All字符串连接波浪号。

然后取出所有@a元素，join在选项卡上重新组合在一起，然后 out put。

示例输入：

Marker  Pvalue  Trait   Chr Pos
S3_16887238 6.172847e-09    Total_Soil_S    3   16887238
S3_16887238 6.172847e-09    Total_Soil_Pa   3   16887238
S3_16887238 6.172847e-09    Total_Soil_Cl   3   16887238

示例输出：

Marker  Pvalue  Trait   Chr Pos
S3_16887238 6.172847e-09    Total_Soil_S_All    3   16887238
S3_16887238 6.172847e-09    Total_Soil_Pa_All   3   16887238
S3_16887238 6.172847e-09    Total_Soil_Cl_All   3   16887238

https://docs.raku.org
https://raku.org

Oliver Knodel · Answer 3 · 2023-03-22T03:48:38+08:00

Oliver Knodel

2023-03-22T03:48:38+08:002023-03-22T03:48:38+08:00

使用 sed 你可以：

sed 's/Total_Soil_[^[:blank:]]*/&_All/' top1.txt

要内联，添加一个-iafter sed

编辑：替换[^ ]为[^[:blank:]]以匹配除Spaces和Tabs之外的所有内容。

0

使用“sed”在 TSV 文件中的字段末尾插入文本

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

使用“sed”在 TSV 文件中的字段末尾插入文本

3 个回答

相关问题