Wget 不起作用,因为该页面是动态的,并且无论我放置什么选项,它都不会下载 Firefox 中显示的某些文本。
我用谷歌搜索了很多,但我找到的所有解决方案都很麻烦,比如编写一个发送 Firefox 特定击键的脚本。然而,有些答案是旧的,所以我想知道现在是否存在更好的东西。
我从页面中需要的只是文本,我不需要任何图像。
Wget 不起作用,因为该页面是动态的,并且无论我放置什么选项,它都不会下载 Firefox 中显示的某些文本。
我用谷歌搜索了很多,但我找到的所有解决方案都很麻烦,比如编写一个发送 Firefox 特定击键的脚本。然而,有些答案是旧的,所以我想知道现在是否存在更好的东西。
我从页面中需要的只是文本,我不需要任何图像。
根据个人经验,我敢说这对我来说似乎不太可能。
对于仅在可见时由 JavaScript 呈现的内容的页面(这听起来像您所描述的),我遇到的最佳解决方案是Python,运行Selenium(可通过
pip
/ PyPI获得)控制例如Ungoogled Chromium(Windows 构建可用here)。这仍然需要(至少有一些)为 Python/Selenium 编写脚本来控制例如 Ungoogled Chromium。
另请注意,在 JavaScript 仅在可见时呈现的情况下,您可能必须通过 Selenium 执行一些 JavaScript 才能滚动网页。还值得注意的是,JavaScript 元素可能无法在以“无头”模式(即没有 GUI)运行的现代浏览器(Chrome/Firefox)下呈现。因此,不幸的是,您可能不得不观看您的网络浏览器浏览这些页面。
我还建议可能使用lxml研究Beautiful Soup以及解析 HTML(可通过/PyPI here和here获得)。您可以通过 Selenium 获取网页文本,但在某些情况下,保存页面以供稍后解析可能更简单。
pip