Estou tentando extrair algumas informações de uma página da web. Imagine que você tenha um nome dado a você (Northcentral Siberia, Rússia) e deseja extrair toda a linha contendo esse nome de uma página da web. Para lidar com isso, baixei a página da web ( https://geofon.gfz-potsdam.de/eqinfo/list.php
) em um arquivo de texto usando o comando lynx ( lynx --dump "https://geofon.gfz-potsdam.de/eqinfo/list.php" > text.txt
) e tentei grep a linha contendo o nome "Northcentral Siberia, Russia". a linha a seguir mostra as informações na página da web, todas em uma linha:
2018-05-27 04:27:17 4.8 60.07°N 128.42°E 10 A Northcentral Siberia, Russia
Mas quando baixei a página da web em um arquivo de texto, a linha acima se divide em duas linhas da seguinte maneira:
2018-05-27 04:27:17 4.8 60.07°N 128.42°E 10 A Northcentral
Siberia, Russia
Nesse caso, se eu tentar extrair essa linha usando seu nome completo (Northcentral Siberia, Russia) e grep, ela falhará. Como posso lidar com isso?
É porque, quando você usa a
-dump
opçãolynx
, assume que sua "tela" tem 80 colunas de largura e a formatação da tabela etc. da página da Web faz com que ela seja quebrada.Adicione um
-width
argumento e deve funcionar -lynx -width=200 -dump "https://geofon.gfz-potsdam.de/eqinfo/list.php" > text.txt