Como extrair nomes de arquivos vazios de uma lista de caminhos de arquivo usando regexes

Question

Roxion

Asked: 2021-03-30 12:14:01 +0800 CST2021-03-30 12:14:01 +0800 CST 2021-03-30 12:14:01 +0800 CST

Extraindo links específicos do código-fonte na linha de comando do linux

772

Eu tenho um arquivo de texto de código-fonte de 3000 linhas de uma página. Como posso extrair URLs específicos semelhantes aos abaixo e excluir o código-fonte restante?

https://d17nygptf7ayu.cloudfront.net/photos/0b1983ccf6bb5674f93b.jpg

Como eu fui através do código, existem 60 links semelhantes ao link acima com apenas alteração nos nomes *.jpg.

como iniciante, tenho menos ideia por onde começar e qual ferramenta devo usar na linha de comando do linux. Também como posso fazer isso no notepad ++?

Regex eu inventohttps\://d17nygptf7ayu\.cloudfront\.net/photos/(?:(?!\.jpg)(?:.|\n))*\.jpg

1 respostas

Voted

bitinerant · Answer 1 · 2021-03-30T22:03:16+08:00

Essa expressão regular corresponderá aos URLs que você deseja:

https\://d17nygptf7ayu\.cloudfront\.net/photos/[0-9a-f]{20}.jpg

O [0-9a-f]acima corresponde a qualquer dígito hexadecimal minúsculo e {20}corresponde exatamente a 20 deles.

A ferramenta Linux clássica e muito útil que pesquisa com base em expressões regulares é o grep. Um geralmente usa o -Esinalizador, o que faz com que ele use expressões regulares estendidas. O -osinalizador faz com que ele produza apenas a string correspondente. (Normalmente grepproduziria a linha inteira que contém a string correspondente.) Para uma descrição completa de como usar grep, digite man grep.

Então, para gerar uma lista de todos os URLs correspondentes:

grep -Eo 'https\://d17nygptf7ayu\.cloudfront\.net/photos/[0-9a-f]{20}.jpg' long_text_file.html >output_list_of_urls.txt

Observe que, se o arquivo que você listou no lugar output_list_of_urls.txtjá existir, ele será substituído. Observe também que a expressão regular está entre aspas. Se seus nomes de arquivo de entrada ou saída contiverem espaços ou outros caracteres especiais, eles também precisam de aspas.

Extraindo links específicos do código-fonte na linha de comando do linux

Como posso reduzir o consumo do processo `vmmem`?

Baixar vídeo do Microsoft Stream

O Google Chrome DevTools falhou ao analisar o SourceMap: chrome-extension

O visualizador de fotos do Windows não pode ser executado porque não há memória suficiente?

Como faço para ativar o WindowsXP agora que o suporte acabou?

Área de trabalho remota congelando intermitentemente

O que significa ter uma máscara de sub-rede /32?

Ponteiro do mouse movendo-se nas teclas de seta pressionadas no Windows?

O VirtualBox falha ao iniciar com VERR_NEM_VM_CREATE_FAILED

Os aplicativos não aparecem nas configurações de privacidade da câmera e do microfone no MacBook

Extraindo links específicos do código-fonte na linha de comando do linux

1 respostas

relate perguntas