根据第一个逗号之前的匹配删除重复行数

Question

lm19246

Asked: 2022-03-07 22:07:01 +0800 CST2022-03-07 22:07:01 +0800 CST 2022-03-07 22:07:01 +0800 CST

超大文本文件操作（添加列；更改列内容）

772

我有一组非常大（80GB）的文件（基因组变体剂量），目前是“.txt.gz”，并具有以下布局（列/变量）：

Chr RSID POS REF ALT Ind1 Ind2...Ind(n) 其中 1:n 是个体

我想编辑这个文件，这样：

Chr 列/变量设置为所有行的特定染色体编号（例如，3）
在文件的特定位置插入了一个新列（我希望在 ALT 和 Ind1 之间插入新列/变量......这样新列将成为编辑文件中的第 6 列）。我还希望将此列的值设置为常数（例如，0）。

最后，我想以与读入相同的格式输出编辑后的文件（因此，输出应为“.txt.gz”

感谢您的帮助，并很乐意提供更多详细信息。

2 个回答

Voted

they · Answer 1 · 2022-03-07T22:53:20+08:00

解压缩文件，将未压缩的数据流传递给awk，让我们awk进行修改，然后将流传递给以gzip进行压缩。

gzip -c -d <file.txt.gz |
awk -F '\t' 'BEGIN { OFS = FS } { $1 = 3; $6 = 0 OFS $6 }; 1' |
gzip -c >newfile.txt.gz

该awk命令将其输入字段分隔符 ( FS) 和输出字段分隔符 ( OFS) 设置为制表符。然后它将第一个字段设置为3，将第 6 个字段设置为0，然后是一个制表符和旧的第 6 个字段。

1脚本末尾的唯一awk字符会导致输出修改后的数据。

的输入awk是来自的解压缩数据流，来自gzip -d的输出awk经过gzip压缩。

如果数据有我们需要单独修改的标题行：

gzip -c -d <file.txt.gz |
awk -F '\t' 'BEGIN { OFS = FS }
    NR == 1 {         $6 = "NEW" OFS $6 }
    NR != 1 { $1 = 3; $6 = 0     OFS $6 }; 1' |
gzip -c >newfile.txt.gz

在这里，我们根据输入的行号做不同的事情。如果我们在第 1 行，我们插入标题NEW作为新的第 6 个字段的标题。如果我们不在第 1 行，我们像以前一样修改数据。

您也可以使用来执行此操作sed，但是当您使用标记问题时，awk我假设这是您更喜欢使用的工具。

RARE Kpop Manifesto · Answer 2 · 2022-03-18T06:06:04+08:00

RARE Kpop Manifesto

2022-03-18T06:06:04+08:002022-03-18T06:06:04+08:00

确认可以在 gawk、mawk-1、mawk-2 和 nawk 上工作：

(…gunzip…)\
 \
 |  mawk 'BEGIN { _+=___=_+=(__=_^=OFS=FS="\t")+_ }\
                $_=(__==NR?"NEW":_<($__=___))FS $_'\
 | (…re-gzip…)

0

超大文本文件操作（添加列；更改列内容）

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

超大文本文件操作（添加列；更改列内容）

2 个回答

相关问题