Reorganize as letras e compare duas palavras

Question

Anna1364

Asked: 2018-08-14 09:10:37 +0800 CST2018-08-14 09:10:37 +0800 CST 2018-08-14 09:10:37 +0800 CST

como imprimir apenas parte de cada linha que estrela com um caractere específico

772

Eu tenho um arquivo com mais de 10.000 linhas:

head samples   
https://genomequebec.mcgill.ca/nanuqMPS/readSetMd5Download/id/192170/type/READ_SET_FASTQ/filename/HI.2613.007.Custom_0022.ED9_SD2A27-1_180_R1.fastq.gz.md5
https://genomequebec.mcgill.ca/nanuqMPS/readSetMd5Download/id/192170/type/READ_SET_FASTQ_PE/filename/HI.2613.007.Custom_0022.ED9_SD2A27-1_180_R2.fastq.gz.md5
https://genomequebec.mcgill.ca/nanuqMPS/readSetMd5Download/id/192171/type/READ_SET_FASTQ/filename/HI.2613.007.Custom_0021.ED4_KS1A29-7_338_R1.fastq.gz.md5
https://genomequebec.mcgill.ca/nanuqMPS/readSetMd5Download/id/192171/type/READ_SET_FASTQ_PE/filename/HI.2613.007.Custom_0021.ED4_KS1A29-7_338_R2.fastq.gz.md5
https://genomequebec.mcgill.ca/nanuqMPS/readSetMd5Download/id/192168/type/READ_SET_FASTQ/filename/HI.2613.007.Index_18.ED17_MO1A26-7_353_R1.fastq.gz.md5
https://genomequebec.mcgill.ca/nanuqMPS/readSetMd5Download/id/192168/type/READ_SET_FASTQ_PE/filename/HI.2613.007.Index_18.ED17_MO1A26-7_353_R2.fastq.gz.md5
https://genomequebec.mcgill.ca/nanuqMPS/readSetMd5Download/id/192169/type/READ_SET_FASTQ/filename/HI.2613.007.Index_14.ED14_IA2A35-2_310_R1.fastq.gz.md5

Desejo imprimir apenas parte de cada linha que começa com "HI.*"

Esta é a minha saída desejada:

HI.2613.007.Custom_0022.ED9_SD2A27-1_180_R1.fastq.gz
HI.2613.007.Custom_0022.ED9_SD2A27-1_180_R2.fastq.gz
HI.2613.007.Custom_0021.ED4_KS1A29-7_338_R1.fastq.gz
HI.2613.007.Custom_0021.ED4_KS1A29-7_338_R2.fastq.gz
HI.2613.007.Index_18.ED17_MO1A26-7_353_R1.fastq.gz
HI.2613.007.Index_18.ED17_MO1A26-7_353_R2.fastq.gz

3 respostas

Voted

αғsнιη · Answer 1 · 2018-08-14T09:16:42+08:00

Usando`awk`

awk -F'/' '$NF ~ /^HI\./{ print $NF }' infile

para remover o .md5sufixo, você pode fazer:

awk -F'(/|.md5)' '$(NF-1) ~ /^HI\./{ print $(NF-1) }' infile

em awk, o $0está se referindo a toda a linha/registro e $1, $2, $3, ... estão se referindo ao primeiro, segundo, terceiro, ... respectivamente; e $NFreferindo-se ao último campo e, portanto, $(NF-1)é o penúltimo campo.
o ~operador til em awk trata o operador do lado direito como correspondência de expressão regular (estendida) com o operando do lado esquerdo como stringstring ~ /regular-expression/

A `sed`solução:

sed 's:.*/\([^/]*\)\.md5$:\1: ; /^HI\./!d' infile

isso /$[^/]*$\.md5corresponde à última barra seguida de qualquer coisa, mas não de uma barra que termine com .md5. Pegamos $[^/]*$(tudo entre a última barra e .md5como uma partida de grupo e imprimimos apenas isso na parte de substituição com sua referência inversa \1.
isso /^HI\./!dexclui as linhas que não começam com HI.o resultado do sedcomando anterior.
usamos seddelimitador diferente :, pois temos /caracteres especiais na entrada.

Siva · Answer 2 · 2018-08-14T09:18:49+08:00

Siva

2018-08-14T09:18:49+08:002018-08-14T09:18:49+08:00

Tente isso,

awk -F '/' '$NF ~ /^HI/ {print substr($NF, 1, length($NF)-4)}' file.txt

imprime o último campo se o último campo começar comHI
exclui os últimos 4 personagens.md5

Resultado

HI.2613.007.Custom_0022.ED9_SD2A27-1_180_R1.fastq.gz
HI.2613.007.Custom_0022.ED9_SD2A27-1_180_R2.fastq.gz
HI.2613.007.Custom_0021.ED4_KS1A29-7_338_R1.fastq.gz
HI.2613.007.Custom_0021.ED4_KS1A29-7_338_R2.fastq.gz
HI.2613.007.Index_18.ED17_MO1A26-7_353_R1.fastq.gz
HI.2613.007.Index_18.ED17_MO1A26-7_353_R2.fastq.gz
HI.2613.007.Index_14.ED14_IA2A35-2_310_R1.fastq.gz

1

kalpesh · Answer 3 · 2018-08-15T09:11:16+08:00

kalpesh

2018-08-15T09:11:16+08:002018-08-15T09:11:16+08:00

awk -F"filename/" '{gsub (".md5","");print $2}'

0

como imprimir apenas parte de cada linha que estrela com um caractere específico

Usando`awk`

A `sed`solução:

Como exportar uma chave privada GPG e uma chave pública para um arquivo

ssh Não é possível negociar: "nenhuma cifra correspondente encontrada", está rejeitando o cbc

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

Como descarregar o módulo do kernel 'nvidia-drm'?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

como imprimir apenas parte de cada linha que estrela com um caractere específico

3 respostas

Usandoawk

A sedsolução:

relate perguntas

Usando`awk`

A `sed`solução: