sed/awk: remove linhas semelhantes após a primeira ocorrência

Question

Rafael Bankosegger

Asked: 2019-09-29 09:21:28 +0800 CST2019-09-29 09:21:28 +0800 CST 2019-09-29 09:21:28 +0800 CST

Usando sed para filtrar itens RSS

772

Eu gostaria de escrever um script que:

Toma algum URL de RSS-Feed como entrada
Baixe o feed
Exclui todas as <item> ...</item>ocorrências em que a titletag não corresponde a alguma expressão regular.

O exemplo a seguir deve ilustrar isso. Digamos que temos um RSS Feed com esses três itens:

Projeto Foo - Vamos começar!
Algo totalmente diferente
Outra atualização sobre o Projeto Foo

Quero manter apenas os itens que têm "Projeto Foo" em seu título.

Exemplo de arquivo de entrada:

<?xml version="1.0" encoding="iso-8859-1"?>
<rss version="2.0">
<channel>
<title>My glorious newsfeed</title>
<description>...</description>
<link>...</link>
<language>...</language>
<pubDate>...</pubDate>

<item>
<title>Project Foo - Let's get started!</title>
<link>...</link>
<description>...</description>
<pubDate>...</pubDate>
</item>

<item>
<title>Something else entirely</title>
<link>...</link>
<description>...</description>
<pubDate>...</pubDate>
</item>

<item>
<title>Another update on Project Foo</title>
<link>...</link>
<description>...</description>
<pubDate>...</pubDate>
</item>

</channel>
</rss>

Exemplo de arquivo de saída:

<?xml version="1.0" encoding="iso-8859-1"?>
<rss version="2.0">
<channel>
<title>My glorious newsfeed</title>
<description>...</description>
<link>...</link>
<language>...</language>
<pubDate>...</pubDate>

<item>
<title>Project Foo - Let's get started!</title>
<link>...</link>
<description>...</description>
<pubDate>...</pubDate>
</item>

<item>
<title>Another update on Project Foo</title>
<link>...</link>
<description>...</description>
<pubDate>...</pubDate>
</item>

</channel>
</rss>

Se possível, gostaria de ficar longe de coisas como pythone fazer isso com ferramentas de linha de comando. Mas eu sou um grande novato usando sedetc. e preciso de ajuda :)

Aqui está o que eu tenho até agora:

cat sample-feed.xml \
  | tr -d '\n' \
  | sed $'s/\<item\>/\\\n\<item\>/g;s/\<\/channel\><\/rss\>/\\\n\<\/channel\><\/rss\>/g' \
  | sed '/^\<item\>/ d'

Primeiro, excluo todas as novas linhas. Em seguida, adiciono novas linhas para trazer cada uma <item>...</item>para sua própria linha. O comando final até agora exclui todas as linhas que começam com <item>. Por

O resultado é um feed rss válido sem nenhum item:

<?xml version="1.0" encoding="iso-8859-1"?><rss version="2.0"><channel><title>My glorious newsfeed</title><description>...</description><link>...</link><language>...</language><pubDate>...</pubDate>    
</channel></rss>

Para fazer isso funcionar com URLs em vez de arquivos locais, eu apenas substituiria cat sample-feed.xmlpor curl -s <some url>.

O que ainda falta é uma modificação no comando sed '/^\<item\>/ d'que exclui apenas as linhas que começam com <item>, mas não contêm "Projeto Foo".

Então, se você pudesse me ajudar a descobrir o que a última linha deveria dizer, eu ficaria muito feliz. Por outro lado, tenho certeza de que existe uma maneira mais elegante de fazer isso. Pelo que vi, sedé bastante poderoso e deve ser possível fazer isso em um sedcomando.

Aguardo suas respostas :-)

1 respostas

Voted

Rafael Bankosegger · Answer 1 · 2019-09-30T06:14:44+08:00

Conforme sugerido nos comentários, tentei usar xmlstarletpara resolver isso e funciona bem. Aqui está o meu roteiro

xml ed -d '//item[not(contains(title,"Project Foo"))]' < sample_rss.xml

Vamos supor que o conteúdo do feed esteja no arquivo sample_rss.xml. Esse conteúdo é alimentado em xml ed -d, que exclui qualquer nota que corresponda à expressão XPath fornecida. A expressão XPath procura por qualquer um <item> que não tenha um nó <title>que contenha o texto "Project Foo".

Isso parece funcionar bem e também estou muito feliz com o tempo de execução:

real    0m0.003s
user    0m0.001s
sys     0m0.002s

Cuidado com os namespaces

Se você quiser fazer isso funcionar com feeds rss ou atom adequados, você pode perceber que feedcontém um atributo XML Namespace ( xmlns), assim como neste exemplo do YouTube:

<?xml version="1.0" encoding="UTF-8"?>
<feed xmlns:yt="http://www.youtube.com/xml/schemas/2015" xmlns:media="http://search.yahoo.com/mrss/" xmlns="http://www.w3.org/2005/Atom">
   ...
</feed>

Então, o script acima não funcionará mais! Isso me causou muita dor de cabeça consertá-lo, mas aqui está como fazê-lo funcionar:

xml ed -d '//_:entry[not(contains(_:title,"Project Foo"))]' < youtube_rss.xml

Mais sobre este problema de namespace aqui: http://xmlstar.sourceforge.net/doc/UG/ch05.html

Usando sed para filtrar itens RSS

O visualizador de fotos do Windows não pode ser executado porque não há memória suficiente?

Como faço para ativar o WindowsXP agora que o suporte acabou?

Área de trabalho remota congelando intermitentemente

Serviço do Windows 10 chamado AarSvc_70f961. O que é e como posso desativá-lo?

O que significa ter uma máscara de sub-rede /32?

Ponteiro do mouse movendo-se nas teclas de seta pressionadas no Windows?

O VirtualBox falha ao iniciar com VERR_NEM_VM_CREATE_FAILED

Os aplicativos não aparecem nas configurações de privacidade da câmera e do microfone no MacBook

ssl.SSLCertVerificationError: falha na verificação do certificado [SSL: CERTIFICATE_VERIFY_FAILED]: não foi possível obter o certificado do emissor local (_ssl.c:1056)

Como posso saber em qual unidade o Windows está instalado?

Usando sed para filtrar itens RSS

1 respostas

relate perguntas