Baixei o arquivo KingBase Lite 2018 Update 3 aqui . Agora quero extrair dados de um único evento como o "FIDE Candidates 2018": quero pegar todos os parágrafos que contém este texto e o parágrafo abaixo dele, então tenho o pgn inteiro para cada jogo.
Para primeiro pegar apenas o parágrafo que contém o texto, segui essas recomendações .
No entanto, quando tento awk -v RS='' -v ORS='\n\n' '/FIDE Candidates 2018/' KingBaseLite2018-03.pgn
, ele apenas imprime o arquivo inteiro. Quando procuro uma palavra que não existe, ela não imprime nada. Então, suponho que ele faça a pesquisa corretamente, mas de alguma forma não corta corretamente em novas linhas. Pode haver algo estranho sobre os novos caracteres de linha nesse arquivo. Quando tento outras sugestões do link acima, como usar o perl, recebo o mesmo resultado.
O que posso fazer para obter o parágrafo agora? E como posso incluir um parágrafo abaixo também?
Eu baixei e descompactei o arquivo, e as terminações de linha são CRLF, então você precisa considerar isso, usando uma ferramenta como
fromdos
, ou se você não quiser modificar o arquivo, você pode dizer ao Perl que você quer fazer a tradução com sua camada:crlf
PerlIO , que é o que estou fazendo abaixo com aPERLIO
variável de ambiente. (Existem outras maneiras de alterar as camadas, mas esta foi mais fácil para uma linha única.)Estou usando o operador flip-flop
...
para extrair apenas o parágrafo que corresponde ao regex mais o seguinte que corresponde/^1\./
(já que todos os parágrafos no arquivo começam com[
ou1.
).