来自 `service | 的意外结果 grep`

Question

alireza niksejel

Asked: 2018-05-28 08:44:55 +0800 CST2018-05-28 08:44:55 +0800 CST 2018-05-28 08:44:55 +0800 CST

如何将网页内容完全按照网页内容下载到文本文件中？

772

我正在尝试从网页中提取一些信息。想象一下，您有一个给您的名字（俄罗斯西伯利亚中北部），并且想要从网页中提取包含该名称的整行。为了解决这个问题，我使用 lynx 命令 ( ) 将网页 ( https://geofon.gfz-potsdam.de/eqinfo/list.php) 下载到了一个文本文件中lynx --dump "https://geofon.gfz-potsdam.de/eqinfo/list.php" > text.txt，并尝试使用 grep 搜索包含名称“Northcentral Siberia, Russia”的行。以下行显示了网页中的所有信息：

2018-05-27 04:27:17 4.8 60.07°N 128.42°E    10  A       Northcentral Siberia, Russia

但是当我将网页下载到文本文件中时，上面的行分为两行，如下所示：

2018-05-27 04:27:17 4.8 60.07°N 128.42°E    10  A   Northcentral 
Siberia, Russia

在这种情况下，如果我尝试使用它的全名（Northcentral Siberia, Russia）和 grep 来提取这条线，它将失败。我该如何处理？

1 个回答

Voted

ivanivan · Answer 1 · 2018-05-28T12:10:30+08:00

Best Answer

ivanivan

2018-05-28T12:10:30+08:002018-05-28T12:10:30+08:00

这是因为当您使用该-dump选项时，lynx它假定您的“屏幕”是 80 列宽，并且网页的表格格式等会导致它换行。

添加一个-width参数，它应该可以工作 -

lynx -width=200 -dump "https://geofon.gfz-potsdam.de/eqinfo/list.php" > text.txt

5

如何将网页内容完全按照网页内容下载到文本文件中？

如何将 GPG 私钥和公钥导出到文件

ssh 无法协商：“找不到匹配的密码”，正在拒绝 cbc

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

如何卸载内核模块“nvidia-drm”？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

如何将网页内容完全按照网页内容下载到文本文件中？

1 个回答

相关问题