将复制活动的序列号添加到 Blob

Question

js4032

Asked: 2024-08-07 09:50:15 +0800 CST2024-08-07 09:50:15 +0800 CST 2024-08-07 09:50:15 +0800 CST

使用 rvest 从网页抓取链接时遇到问题

772

我是网络抓取新手，所以请原谅我提出这个基本问题，但我正在尝试从 Letterboxd 上的列表中抓取电影 URL，但遇到了一些问题。使用此列表作为示例，我能够在此处的 HTML 中找到链接位置：

但是，我实际上无法从中获取链接。到目前为止，我尝试了两种方法。首先，我尝试抓取所有链接元素，然后希望过滤掉我不需要的元素：

library(rvest)
link <- 'https://letterboxd.com/horrorville/list/horrorville-community-80s-video-store-horror/'
page <- read_html(link)

page %>%
  html_elements('a') %>%
  html_attr('href')

这确实返回了 URL，但实际上没有一个是列表中的电影的 URL。然后我尝试根据类名进行选择。我不太熟悉 HTML，但我的理解是，class="frame has-menu"表示两个单独的类frame，并且has-menu可以通过用句点分隔它们来在 rvest 中合并，所以我尝试了这个：

page %>%
  html_elements('.frame.has-menu') %>%
  html_attr('href')

那根本没有返回任何东西。

我看到另一个问题听起来很相似，所以我尝试按照回复者的建议检查浏览器（Firefox）devtools 的“网络”选项卡。我不太清楚该怎么做，但看起来与电影相关的请求使用的是 GET 请求，而在另一个问题中，回复者说问题是 rvest 无法处理 POST 请求。我这里的问题是什么？

1 个回答

Voted

sactyr · Answer 1 · 2024-08-07T11:01:47+08:00

经过反复尝试，我终于找到了包含各个 URL 的正确 HTML 部分（如果有更快更有效的方法来找到正确的 HTML 部分，也许其他人可以添加到此帖子中）。我使用了 Chrome 的开发人员工具（右键单击任何页面 > 检查），然后查看代码以查看电影 URL 的位置。

电影 URL 有两个页面，因此我们获取两个页面的 URL 并循环遍历。该data-target-link属性仅包含部分 URL，因此我们将站点 URL 附加到其中以获取完整路径。

library(rvest)

link <- 'https://letterboxd.com/horrorville/list/horrorville-community-80s-video-store-horror/'

all_links <- c(link, paste0(link, "page/2/"))

# Loop through the different pages and extract URLs
all_movies_urls <- lapply(
  X = all_links
  ,function(lnk) {
    
    # Read entire page's html
    page_html <- read_html(lnk)
    
    # Narrow down to the correct html containing URLs
    movie_urls <- page_html %>% 
      html_nodes(".poster-container") %>% 
      html_nodes(".really-lazy-load") %>% 
      html_attr("data-target-link")
    
    # Append site URL to each movie URL
    movie_urls <- paste0("https://letterboxd.com", movie_urls)
    
  }
)

# Unlist to get vector of URLs
unlist(all_movies_urls)

使用 rvest 从网页抓取链接时遇到问题

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

使用 rvest 从网页抓取链接时遇到问题

1 个回答

相关问题