重新排列字母并比较两个单词

Question

Anna1364

Asked: 2019-04-09 09:48:58 +0800 CST2019-04-09 09:48:58 +0800 CST 2019-04-09 09:48:58 +0800 CST

提取两个逗号之间的字符？

772

我有一个大约 300 万行的文件，这是我文件的前几行：

head out.txt
    NA
    NA
    NA
    NA
    NA
    gene85752,gene85753
    gene85752,gene85753
    gene85752,gene85753
    gene85752,gene85753
    gene85752,gene85753
    gene85752,gene85753
    gene85752,gene85753,gene85754
    gene85752,gene85753,gene85754
    gene85752,gene85753,gene85754
    gene85752,gene85753,gene85754
    gene85752,gene85753
    gene85752,gene85753
    gene85752,gene85753
    gene85752,gene85753
    gene85752,gene85753
    gene85752,gene85753
    gene85752,gene85753
    gene85752,gene85753
    gene85752,gene85753
    gene85752
    gene85752

对于那些以“，”分隔的行，我想保留第一个逗号之后和第二个逗号之前的所有内容。这是我想要的输出：

outgood.txt
NA
NA
NA
NA
NA
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85752
gene85752

4 个回答

Voted

iruvar · Answer 1 · 2019-04-09T10:08:26+08:00

Best Answer

iruvar

2019-04-09T10:08:26+08:002019-04-09T10:08:26+08:00

由于cut默认情况下打印非定界行，因此以下工作

cut -f2 -d, file

18

Kusalananda · Answer 2 · 2019-04-09T10:04:35+08:00

Kusalananda

2019-04-09T10:04:35+08:002019-04-09T10:04:35+08:00

awk -F, 'NF > 1 { $1 = $2 } { print $1 }' file

这用于awk将文件解析为由逗号分隔的字段组成的行。

代码检测一行中何时有多个字段，如果有，则将第一个字段替换为第二个字段。然后打印未修改或由条件代码修改的第一个字段。

3

unxnut · Answer 3 · 2019-04-09T10:02:40+08:00

unxnut

2019-04-09T10:02:40+08:002019-04-09T10:02:40+08:00

awk -F, 'NF == 1 {print $1}
         NF > 1 { print $2}' filename

如果没有逗号，这将只打印第一个字符串，如果有一个或多个逗号，则打印第二个字符串。

1

Rakesh Sharma · Answer 4 · 2019-04-09T21:22:54+08:00

您可以Perl按以下方式执行此操作。

命令行：

$ perl -F, -pale '$_ = $F[1] // $_' out.txt

解释：

-p在进入读取下一个或 eof 之前，将逐行读取记录并自动打印。
-l使IRS = ORS = "\n"
-F,做FS一个逗号。
-a在字段分隔符上分割每条记录$_，在我们的例子中是逗号，然后将生成的字段存储在数组中@F，该数组是零索引的。
-e暗示，紧随其后的是Perl代码，将应用于每条记录。
$_ = $F[1] // $_表达式如下：如果$F[1]未定义第二个字段，则使用当前记录$_。然后将此表达式的结果分配给当前记录$_。
由于正在使用的-p切换，在读入新记录之前，将当前记录取为.perlstdout

结果：

NA
NA
NA
NA
NA
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85752
gene85752

您也可以使用 GNU 版本的sed编辑器来执行此操作，如下所示：

$ sed -ne '
    s/,/\n/
    s/.*\n//
    s/,/\n/
    P
' out.txt

提取两个逗号之间的字符？

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

提取两个逗号之间的字符？

4 个回答

相关问题