重新排列字母并比较两个单词

Question

Anna1364

Asked: 2018-08-14 09:10:37 +0800 CST2018-08-14 09:10:37 +0800 CST 2018-08-14 09:10:37 +0800 CST

如何仅打印以特定字符为星标的每一行的一部分

772

我有一个超过 10,000 行的文件：

head samples   
https://genomequebec.mcgill.ca/nanuqMPS/readSetMd5Download/id/192170/type/READ_SET_FASTQ/filename/HI.2613.007.Custom_0022.ED9_SD2A27-1_180_R1.fastq.gz.md5
https://genomequebec.mcgill.ca/nanuqMPS/readSetMd5Download/id/192170/type/READ_SET_FASTQ_PE/filename/HI.2613.007.Custom_0022.ED9_SD2A27-1_180_R2.fastq.gz.md5
https://genomequebec.mcgill.ca/nanuqMPS/readSetMd5Download/id/192171/type/READ_SET_FASTQ/filename/HI.2613.007.Custom_0021.ED4_KS1A29-7_338_R1.fastq.gz.md5
https://genomequebec.mcgill.ca/nanuqMPS/readSetMd5Download/id/192171/type/READ_SET_FASTQ_PE/filename/HI.2613.007.Custom_0021.ED4_KS1A29-7_338_R2.fastq.gz.md5
https://genomequebec.mcgill.ca/nanuqMPS/readSetMd5Download/id/192168/type/READ_SET_FASTQ/filename/HI.2613.007.Index_18.ED17_MO1A26-7_353_R1.fastq.gz.md5
https://genomequebec.mcgill.ca/nanuqMPS/readSetMd5Download/id/192168/type/READ_SET_FASTQ_PE/filename/HI.2613.007.Index_18.ED17_MO1A26-7_353_R2.fastq.gz.md5
https://genomequebec.mcgill.ca/nanuqMPS/readSetMd5Download/id/192169/type/READ_SET_FASTQ/filename/HI.2613.007.Index_14.ED14_IA2A35-2_310_R1.fastq.gz.md5

我只想打印以“HI.*”开头的每一行的一部分

这是我想要的输出：

HI.2613.007.Custom_0022.ED9_SD2A27-1_180_R1.fastq.gz
HI.2613.007.Custom_0022.ED9_SD2A27-1_180_R2.fastq.gz
HI.2613.007.Custom_0021.ED4_KS1A29-7_338_R1.fastq.gz
HI.2613.007.Custom_0021.ED4_KS1A29-7_338_R2.fastq.gz
HI.2613.007.Index_18.ED17_MO1A26-7_353_R1.fastq.gz
HI.2613.007.Index_18.ED17_MO1A26-7_353_R2.fastq.gz

3 个回答

Voted

αғsнιη · Answer 1 · 2018-08-14T09:16:42+08:00

Best Answer

αғsнιη

2018-08-14T09:16:42+08:002018-08-14T09:16:42+08:00

使用`awk`

awk -F'/' '$NF ~ /^HI\./{ print $NF }' infile

要删除.md5后缀，您可以执行以下操作：

awk -F'(/|.md5)' '$(NF-1) ~ /^HI\./{ print $(NF-1) }' infile

在中awk，the$0指的是整行/记录，而$1, $2, $3, ... 分别指第一，第二，第三，...；并$NF引用最后一个字段，因此$(NF-1)是倒数第二个字段。
awk中的 tild~运算符将右侧运算符视为（扩展）正则表达式匹配，将左侧操作数视为字符串string ~ /regular-expression/

`sed`解决方案：

sed 's:.*/\([^/]*\)\.md5$:\1: ; /^HI\./!d' infile

这/$[^/]*$\.md5匹配最后一个斜杠后跟除以 . 结尾的斜杠之外的任何内容.md5。我们采用$[^/]*$(最后一个斜杠和.md5作为组匹配之间的所有内容，并在替换部分中仅打印它及其后向引用\1。
这/^HI\./!d会删除不是从上一个命令HI.的结果开始的行。sed
我们使用了不同的sed定界符:，因为我们在输入中有特殊/字符。

3

Siva · Answer 2 · 2018-08-14T09:18:49+08:00

Siva

2018-08-14T09:18:49+08:002018-08-14T09:18:49+08:00

尝试这个，

awk -F '/' '$NF ~ /^HI/ {print substr($NF, 1, length($NF)-4)}' file.txt

如果最后一个字段以HI
排除最后 4 个字符.md5

输出

HI.2613.007.Custom_0022.ED9_SD2A27-1_180_R1.fastq.gz
HI.2613.007.Custom_0022.ED9_SD2A27-1_180_R2.fastq.gz
HI.2613.007.Custom_0021.ED4_KS1A29-7_338_R1.fastq.gz
HI.2613.007.Custom_0021.ED4_KS1A29-7_338_R2.fastq.gz
HI.2613.007.Index_18.ED17_MO1A26-7_353_R1.fastq.gz
HI.2613.007.Index_18.ED17_MO1A26-7_353_R2.fastq.gz
HI.2613.007.Index_14.ED14_IA2A35-2_310_R1.fastq.gz

1

kalpesh · Answer 3 · 2018-08-15T09:11:16+08:00

kalpesh

2018-08-15T09:11:16+08:002018-08-15T09:11:16+08:00

awk -F"filename/" '{gsub (".md5","");print $2}'

0

如何仅打印以特定字符为星标的每一行的一部分

使用`awk`

`sed`解决方案：

如何将 GPG 私钥和公钥导出到文件

ssh 无法协商：“找不到匹配的密码”，正在拒绝 cbc

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

如何卸载内核模块“nvidia-drm”？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

如何仅打印以特定字符为星标的每一行的一部分

3 个回答

使用awk

sed解决方案：

相关问题

使用`awk`

`sed`解决方案：