我正在尝试从网页中提取一些信息。想象一下,您有一个给您的名字(俄罗斯西伯利亚中北部),并且想要从网页中提取包含该名称的整行。为了解决这个问题,我使用 lynx 命令 ( ) 将网页 ( https://geofon.gfz-potsdam.de/eqinfo/list.php
) 下载到了一个文本文件中lynx --dump "https://geofon.gfz-potsdam.de/eqinfo/list.php" > text.txt
,并尝试使用 grep 搜索包含名称“Northcentral Siberia, Russia”的行。以下行显示了网页中的所有信息:
2018-05-27 04:27:17 4.8 60.07°N 128.42°E 10 A Northcentral Siberia, Russia
但是当我将网页下载到文本文件中时,上面的行分为两行,如下所示:
2018-05-27 04:27:17 4.8 60.07°N 128.42°E 10 A Northcentral
Siberia, Russia
在这种情况下,如果我尝试使用它的全名(Northcentral Siberia, Russia)和 grep 来提取这条线,它将失败。我该如何处理?
这是因为当您使用该
-dump
选项时,lynx
它假定您的“屏幕”是 80 列宽,并且网页的表格格式等会导致它换行。添加一个
-width
参数,它应该可以工作 -lynx -width=200 -dump "https://geofon.gfz-potsdam.de/eqinfo/list.php" > text.txt