grep 从 $START 到 $END 的一组行并且在 $MIDDLE 中包含匹配项

Question

Asked: 2024-01-27 03:12:35 +0800 CST2024-01-27 03:12:35 +0800 CST 2024-01-27 03:12:35 +0800 CST

如何拆分文本文件中给定列的字符串值

772

我在 Linux 机器上有一个包含两列的文本文件：

第1列 = id_no（大部分为5位，有的为6位）；
第 2 列 = Genetic_markers（全部长度为 50674 位）；

12345 0102010205
54322 2221110051
123456 1122011510

我想将文件更改为如下所示：

 12345 0 1 0 2 0 1 0 2 0 5
 54322 2 2 2 1 1 1 0 0 5 1
123456 1 1 2 2 0 1 1 5 1 0

如何更改第一列，使其向右对齐（如数字所示）？
有人可以帮我用最可靠的方法来更改第二列数字之间的空格吗？请解释代码的元素及其作用。

谢谢

5 个回答

Voted

Stéphane Chazelas · Answer 1 · 2024-01-27T03:25:54+08:00

和perl：

$ perl -lane 'printf "%6s %s\n", $F[0], join " ", split "", $F[1]' <your-file
 12345 0 1 0 2 0 1 0 2 0 5
 54322 2 2 2 1 1 1 0 0 5 1
123456 1 1 2 2 0 1 1 5 1 0

使用-lane（-n一次读取输入一条记录，并-e使用中的记录运行表达式$_，-a因为awk 将行拆分为@F字段，从记录中-l删除ine 分隔符），其行为类似于。lperlawk

在这里，我们使用printf空格将第一个字段左填充到 6 的长度，然后用空格将join第二个字段拆分为其字符组成部分。

terdon · Answer 2 · 2024-01-27T03:31:59+08:00

为了右对齐，您需要找到文件中最长数字的长度，或者只选择一个大数字并使用它。例如，您可以填充 10 个空格：

$ printf '%d\n' 123
123
$ printf '%10d\n' 123
       123

如果这种方法足够好，您可以执行以下操作：

$ awk '{ gsub(/./," &",$2); printf "%10d%s\n",$1,$2}' file 
     12345 0 1 0 2 0 1 0 2 0 5
     54322 2 2 2 1 1 1 0 0 5 1
    123456 1 1 2 2 0 1 1 5 1 0

这里只发生了两件事：

gsub(/./," &",$2);：gsub( g lobal sub stitution) 函数将用您提供的任何替换项替换您给它的正则表达式的所有匹配项（这里，我们只给它一个.含义“任何字符”）。具有&特殊含义，表示“正则表达式匹配的任何内容”，因此 &作为替换给出的效果是在每个字符之前插入一个空格。最后一个参数是输入，这里我们给它第二个字段$2。
printf "%10d %s\n",$1,$2：我们用来printf打印格式化字符串。%10d意思是“打印我给你的数字并用10个空格填充”，%s意思是“打印这个字符串”。因此，我们告诉它打印第一个字段填充了 10 个空格，然后打印已被修改的第二个字段gsub。

如果只需要填充最小值，则需要读取文件两次。首先获取最长的第一个字段的长度：

$ awk -v max=0 '{ if(length($1) > max){ max=length($1) }} END{print max}' file 
6

有了这个，你就可以更具体：

$ awk '{ k=gsub(/./," &",$2); printf "%6d%s\n",$1,$2}' file 
 12345 0 1 0 2 0 1 0 2 0 5
 54322 2 2 2 1 1 1 0 0 5 1
123456 1 1 2 2 0 1 1 5 1 0

Cbhihe · Answer 3 · 2024-01-27T19:22:07+08:00

@terdon 和 @StéphaneChazelas 之前的答案很好，但是将两个流解析捆绑在一起（首先获取第 1 列值的最大字符串长度，第二个使用该最大值作为格式化参数）可能会很有趣。根据 @terdon 的答案和符号这样做可以得出：

awk 'NR==FNR { if( length($1)>max ) { max=length($1) }; next }
             { gsub(/./," &",$2); printf "%*d%s\n",max,$1,$2 }' myfile myfile

注意如何：

之前的变量“max”不需要初始化为0，
k=gsub(...)不需要“k” ，
最大字符串长度 ,max用于替换格式*中的printf "%*d%s\n"...
对同一文件“myfile”进行两次解析，其中 ( NR==FNR{...; next}) 仅与第一个解析相关，而第二个 {...} 命令块仅与第二个解析相关。

Ed Morton · Answer 4 · 2024-01-27T20:14:26+08:00

使用anyawk和GNU column（对于-R）：

$ awk '{gsub(/./," &",$2)} 1' file | column -tR1
 12345  0  1  0  2  0  1  0  2  0  5
 54322  2  2  2  1  1  1  0  0  5  1
123456  1  1  2  2  0  1  1  5  1  0

-o' '如果您真的关心字段之间的空格，请添加：

$ awk '{gsub(/./," &",$2)} 1' file | column -o' ' -t -R1
 12345 0 1 0 2 0 1 0 2 0 5
 54322 2 2 2 1 1 1 0 0 5 1
123456 1 1 2 2 0 1 1 5 1 0

jubilatious1 · Answer 5 · 2024-01-28T04:30:58+08:00

使用Raku（以前称为 Perl_6）

~$ raku -ne '.split(" ") andthen put sprintf("%6d", .[0]), .[1].comb;'  file 

#OR

~$ raku -ne '.words andthen put sprintf("%6d", .[0]), .[1].comb;'  file

Raku 是 Perl 家族的一种编程语言。上面使用了 Raku 的-ne非自动打印逐行标志。默认情况下，该-n标志会删除行终点的分隔符。然后，您可以print省略尾随换行符（默认情况下），或put，这会添加尾随换行符（想象一下put代表print-using-terminator）。

在第一个答案中，该行明确.split位于单空格（的缩写$_.split）上。在第二个答案中，Raku 的.words例程用于按空格进行分割。此后，连接andthen重新加载$_，以便可以格式化每列以进行输出。第一列（即.[0]）使用格式化sprintf，而第二列（即.[1]）被comb编辑为单个字符并返回。

注意：如果“ID”确实是（十进制）无符号整数，那么在内部sprintf您可以使用u代替d，如中所示sprintf("%6u", …)。

输入示例：

12345 0102010205
54322 2221110051
123456 1122011510

示例输出：

 123450 1 0 2 0 1 0 2 0 5
 543222 2 2 1 1 1 0 0 5 1
1234561 1 2 2 0 1 1 5 1 0

注意：为了避免在文件可能包含空行时引发错误，您可以添加if条件来删除空行：

~$ raku -ne 'if .chars { .words andthen put sprintf("%6d", .[0]), .[1].comb};'  file

#OR

~$ raku -ne 'if $_ .= words {put sprintf("%6d", .[0]), .[1].comb};'  file

要保留空行，可以使用 Raku 的三元运算符：

~$ raku -ne '.chars ??  ( .split(" ") andthen put sprintf( "%6d", .[0]), .[1].comb) !! "".put;'  file

#OR

~$ raku -ne '$_ .= split(" ", :skip-empty) ?? (put sprintf( "%6d", .[0]), .[1].comb) !! "".put;'  file

https://docs.raku.org/routine/sprintf
https://docs.raku.org/routine/%3F%3F%20%21%21
https://raku.org

如何拆分文本文件中给定列的字符串值

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

如何拆分文本文件中给定列的字符串值

5 个回答

相关问题