AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / ubuntu / 问题 / 1167206
Accepted
WinEunuuchs2Unix
WinEunuuchs2Unix
Asked: 2019-08-21 17:16:35 +0800 CST2019-08-21 17:16:35 +0800 CST 2019-08-21 17:16:35 +0800 CST

无法在下载的网页中查找价格

  • 772

使用wget我下载了这个网页:

沃尔玛网站.png

使用命令:

RobWebsiteAddress="https://www.walmart.ca/en/ip/Dispenser-Set-Tumbler-Organizer-Bathroom-Bin-Holder-Bathroom-Containers-Soap-Set-Accessories-Travel-6Pcs-Accessory-Ejoyous-Dish-Toothbrush/PRD4406MV3EZF75"
DownloadName="Ejoyous1"
wget -O- -q --user-agent=AGENT "$RobWebAddress" > "$DownloadName"

当我尝试打开其中的文件时,gedit它变得疯狂。

当我使用:

grep -i 23.31 Ejoyous1 | wc
      0       0       0

价格没找到。如果我grep在这个词上price得到一长行的 146,329 个字符,这可能是让我gedit发疯的原因:

$ grep -i price Ejoyous1 | wc
      1    6292  146329

.5 MB 文件中有一些提示:

$ grep -i necolas Ejoyous1
/*! normalize.css v8.0.0 | MIT License | github.com/necolas/normalize.css */

如您所知,这是来自沃尔玛的网站。只需下载网页并使用它,我就可以毫无问题地获得 Costco 的定价和 Ikea 的定价wget。我也没有问题查看从 Costco 或 Ikea 下载的文件gedit。

如果它是 HTML 的衍生物,我该如何解释这种语言?我应该使用什么工具?有什么线索可以走上正确的道路吗?

websites css html
  • 2 2 个回答
  • 347 Views

2 个回答

  • Voted
  1. cmak.fr
    2019-08-21T19:30:19+08:002019-08-21T19:30:19+08:00

    价格信息通过使用 API 和 json 的 js 脚本显示在网页中
    这就是为什么网页的源代码中不存在价格文本的原因
    浏览器 Web 开发工具将显示价格以及更多库存信息来自json 响应https://www.walmart.ca/api/product-page/price-offer

    由于此类过程可以通过身份验证和 cookie 得到保护,并且由于 wget 和 curl 无法下载 json 文件,因此一个想法是注册并使用 Wallmart API
    https://developer.walmart.com/
    但似乎该 API 是针对合作伙伴供应商的

    另一个想法是反转公共网页构建过程以发送格式良好的 API 请求......

    • 2
  2. Best Answer
    xiota
    2019-08-22T16:23:28+08:002019-08-22T16:23:28+08:00

    许多页面从主页(从一个单独的“文件”)单独下载内容,因此在您下载的文件中没有任何内容可以使用wget. Firefox 运行 javascript,允许它下载内容。您可以按 (Ctrl+Shift+C) 来查看 JavaScript 控制台。单击“网络”,然后重新加载页面以查看它正在建立的连接。其中一个连接是json名为 price-offer 的“文件”。

    如果您能够找出内容所在的位置,就有可能获取数据。否则,您必须像 Firefox 一样执行 javascript。但是,它并不像提供 URL 那样简单。您还必须将数据发送到服务器以获取所需的信息。(API cmak.fr 描述了.)

    我发现我可以使用带有“另存为”.html 选项的 Firefox 打开网页。然后可以对生成的保存文件进行价格搜索。

    这是有效的,因为浏览器会在保存页面之前将额外信息(来自json)添加到页面中。要跳过手动单击 GUI,您可以使用 Chromium 下载页面。(也可以使用 Firefox,但看起来更复杂 - MDN Headless Mode。)

    chromium-browser --headless --disable-gpu --dump-dom "https://example.com/" > example.html
    

    然后grep价格:

    sed -i.bak -Ee 's@,@,\n@g' example.html 
    grep -wEe '"price"\:[0-9]+\.[0-9]+' example.html 
    
    • 2

相关问题

  • 将 PDF 文件转换为单独的 HTML 文件的工具?

  • 我已经安装了 Ubuntu 10.04 LAMP 服务器。我最好在哪里创建文件夹来放置我的网站?

  • 在 Ubuntu 上是否有相当于 MacRabbit 的 cssedit?

  • Web 服务器最佳实践:目录结构和安全性

  • 如何设置一台机器来将我的网站托管到世界各地 - 使用我自己的网址?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    如何运行 .sh 脚本?

    • 16 个回答
  • Marko Smith

    如何安装 .tar.gz(或 .tar.bz2)文件?

    • 14 个回答
  • Marko Smith

    如何列出所有已安装的软件包

    • 24 个回答
  • Marko Smith

    无法锁定管理目录 (/var/lib/dpkg/) 是另一个进程在使用它吗?

    • 25 个回答
  • Martin Hope
    Flimm 如何在没有 sudo 的情况下使用 docker? 2014-06-07 00:17:43 +0800 CST
  • Martin Hope
    Ivan 如何列出所有已安装的软件包 2010-12-17 18:08:49 +0800 CST
  • Martin Hope
    La Ode Adam Saputra 无法锁定管理目录 (/var/lib/dpkg/) 是另一个进程在使用它吗? 2010-11-30 18:12:48 +0800 CST
  • Martin Hope
    David Barry 如何从命令行确定目录(文件夹)的总大小? 2010-08-06 10:20:23 +0800 CST
  • Martin Hope
    jfoucher “以下软件包已被保留:”为什么以及如何解决? 2010-08-01 13:59:22 +0800 CST
  • Martin Hope
    David Ashford 如何删除 PPA? 2010-07-30 01:09:42 +0800 CST

热门标签

10.10 10.04 gnome networking server command-line package-management software-recommendation sound xorg

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve