AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / coding / 问题 / 78980945
Accepted
user3243118
user3243118
Asked: 2024-09-13 14:41:25 +0800 CST2024-09-13 14:41:25 +0800 CST 2024-09-13 14:41:25 +0800 CST

在 Google 表格中使用 IMPORTXML 提取图片 URL

  • 772

我在这里看到过很多次这样的问题,但这次非常不同。其他使用 IMPORTXML 的帮助请求中,楼主询问的是提取标准 HTML 标签,如 a/href/img/src/ul/li 等。我想要提取的内容嵌入在 style 标签中,但提取结果并不如预期。

在此页面https://www.northtexasgivingday.org/organization/Salvationarmynorthtexas(以及一系列类似的页面)上,我尝试提取各种非营利组织徽标的 URL。

我在 Chrome 开发工具中突出显示了徽标并复制了 Xpath 或完整的 Xpath - 它没有使用 IMPORTXML 返回预期的徽标 url。

xapth 是 //*[@id="org-logo"]/span 并且完整的 Xpath 是 /html/body/app-root/mat-sidenav-container/mat-sidenav-content/div[2]/app-organization/div/app-org-page/div/div/div[1]/app-banner/div/div[3]/span

The image is stored in this element:
<span _ngcontent-ng-c332306571="" role="img" applazyload="" class="image set-background ng-star-inserted" aria-label="The Salvation Army North Texaslogo" style="opacity: 0; animation: 0.7s ease-out 0s 1 normal forwards running lazy-load-anim1; background-repeat: no-repeat; background-size: cover; width: 100%; height: 100%; background-position: center center; background-image: url("https://imagecdn.mightycause.com/36be848e-03bb-47c3-8616-6d51b811e38d/-/format/auto/-/progressive/yes/-/stretch/off/-/preview/&quot;);"></span>

我可以在样式部分下的元素中看到图像网址

background-image:

如:https://imagecdn.mightycause.com/36be848e-03bb-47c3-8616-6d51b811e38d/-/format/auto/-/progressive/yes/-/stretch/off/-/preview/

我已经在以下公式中尝试了两个 Xapth 选项:

IMPORTXML(“https://www.northtexasgivingday.org/organization/Salvationarmynorthtexas”,“//*[@id='org-logo']/span”)

或者

IMPORTXML(“https://www.northtexasgivingday.org/organization/Salvationarmynorthtexas”,“/html/body/app-root/mat-sidenav-container/mat-sidenav-content/div[2]/app-organization/div/app-org-page/div/div/div[1]/app-banner/div/div[3]/span”)

这些都不起作用。你们能帮我解决这个问题吗?

xpath
  • 1 1 个回答
  • 28 Views

1 个回答

  • Voted
  1. Best Answer
    Tanaike
    2024-09-13T21:09:42+08:002024-09-13T21:09:42+08:00

    当我看到您的 URL 的 HTML 时,我注意到该 URLhttps://imagecdn.mightycause.com/36be848e-03bb-47c3-8616-6d51b811e38d/-/format/auto/-/progressive/yes/-/stretch/off/-/preview/是由 Javascript 创建的。不幸的是,在这种情况下,无法直接使用 IMPORTXML。但幸运的是,我从 HTML 中的 JSON 数据中找到了图像 URL https://imagecdn.mightycause.com/36be848e-03bb-47c3-8616-6d51b811e38d/。看来这张图片和您预期的 URL 相同。因此,在这个答案中,我想建议检索 URL。

    示例脚本:

    在这种情况下,需要使用 Google Apps Script。因此,请打开电子表格的脚本编辑器,复制并粘贴以下脚本,然后保存脚本。

    当您使用此脚本时,请将自定义函数放入=SAMPLE("https://www.northtexasgivingday.org/organization/Salvationarmynorthtexas")单元格中。这样,将返回图像 URL。

    function SAMPLE(url) {
      const res = UrlFetchApp.fetch(url);
      const str = res.getContentText().match(/<script id\="ng-state" type\="application\/json">(.*?)<\/script>/);
      const obj = JSON.parse(str[1]);
      const ar = Object.values(obj).flatMap(v => v?.body?.org_info?.circle_pic || []);
      return ar.length > 0 ? ar[0] : "";
    }
    

    测试:

    测试此脚本时,会得到以下结果。在此示例中,=SAMPLE("https://www.northtexasgivingday.org/organization/Salvationarmynorthtexas")将输入到单元格“A1”中。并且,=IMAGE(A1)将输入到单元格“B1”中。

    在此处输入图片描述

    笔记:

    • 此示例脚本适用于您的 URL https://www.northtexasgivingday.org/organization/Salvationarmynorthtexas。并且,我确认此脚本现在有效。但是,当您更改 URL 时,此脚本可能无法使用。此外,当网站的规格发生变化时,此脚本可能无法使用。请注意这一点。

    • 如果您需要检索类似的URL https://imagecdn.mightycause.com/36be848e-03bb-47c3-8616-6d51b811e38d/-/format/auto/-/progressive/yes/-/stretch/off/-/preview/,请测试以下脚本。

      function SAMPLE(url) {
        const res = UrlFetchApp.fetch(url);
        const str = res.getContentText().match(/<script id\="ng-state" type\="application\/json">(.*?)<\/script>/);
        const obj = JSON.parse(str[1]);
        const ar = Object.values(obj).flatMap(v => v?.body?.org_info?.circle_pic || []);
        if (ar.length > 0) {
          return `https://imagecdn.mightycause.com/${ar[0].split("/")[3]}/-/format/auto/-/progressive/yes/-/stretch/off/-/preview/`;
        }
        return "";
      }
      

    参考:

    • Google 表格中的自定义函数
    • 0

相关问题

  • 如何使用XPath获取以下元素?

  • 如何组合 2 个 xPath 查询

  • XPath 方括号运算符产生意外结果

  • 通过属性匹配特定节点需要 XPATH

  • 如何使用XPath定位兄弟节点

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    Vue 3:创建时出错“预期标识符但发现‘导入’”[重复]

    • 1 个回答
  • Marko Smith

    为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍,但在任何 Oracle JVM 上却不行?

    • 1 个回答
  • Marko Smith

    具有指定基础类型但没有枚举器的“枚举类”的用途是什么?

    • 1 个回答
  • Marko Smith

    如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误?

    • 6 个回答
  • Marko Smith

    `(表达式,左值) = 右值` 在 C 或 C++ 中是有效的赋值吗?为什么有些编译器会接受/拒绝它?

    • 3 个回答
  • Marko Smith

    何时应使用 std::inplace_vector 而不是 std::vector?

    • 3 个回答
  • Marko Smith

    在 C++ 中,一个不执行任何操作的空程序需要 204KB 的堆,但在 C 中则不需要

    • 1 个回答
  • Marko Smith

    PowerBI 目前与 BigQuery 不兼容:Simba 驱动程序与 Windows 更新有关

    • 2 个回答
  • Marko Smith

    AdMob:MobileAds.initialize() - 对于某些设备,“java.lang.Integer 无法转换为 java.lang.String”

    • 1 个回答
  • Marko Smith

    我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

    • 1 个回答
  • Martin Hope
    Aleksandr Dubinsky 为什么 InetAddress 上的 switch 模式匹配会失败,并出现“未涵盖所有可能的输入值”? 2024-12-23 06:56:21 +0800 CST
  • Martin Hope
    Phillip Borge 为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍,但在任何 Oracle JVM 上却不行? 2024-12-12 20:46:46 +0800 CST
  • Martin Hope
    Oodini 具有指定基础类型但没有枚举器的“枚举类”的用途是什么? 2024-12-12 06:27:11 +0800 CST
  • Martin Hope
    sleeptightAnsiC `(表达式,左值) = 右值` 在 C 或 C++ 中是有效的赋值吗?为什么有些编译器会接受/拒绝它? 2024-11-09 07:18:53 +0800 CST
  • Martin Hope
    The Mad Gamer 何时应使用 std::inplace_vector 而不是 std::vector? 2024-10-29 23:01:00 +0800 CST
  • Martin Hope
    Chad Feller 在 5.2 版中,bash 条件语句中的 [[ .. ]] 中的分号现在是可选的吗? 2024-10-21 05:50:33 +0800 CST
  • Martin Hope
    Wrench 为什么双破折号 (--) 会导致此 MariaDB 子句评估为 true? 2024-05-05 13:37:20 +0800 CST
  • Martin Hope
    Waket Zheng 为什么 `dict(id=1, **{'id': 2})` 有时会引发 `KeyError: 'id'` 而不是 TypeError? 2024-05-04 14:19:19 +0800 CST
  • Martin Hope
    user924 AdMob:MobileAds.initialize() - 对于某些设备,“java.lang.Integer 无法转换为 java.lang.String” 2024-03-20 03:12:31 +0800 CST
  • Martin Hope
    MarkB 为什么 GCC 生成有条件执行 SIMD 实现的代码? 2024-02-17 06:17:14 +0800 CST

热门标签

python javascript c++ c# java typescript sql reactjs html

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve