我通常熟悉。我知道和rvest
之间的区别。但我无法解决这个问题:html_elements()
html_element()
假设我们有类似此网页上的数据。数据采用分层格式,每个标题都有不同数量的子标题。
当我尝试抓取时,我得到了 177 个标题。但是,副标题实际上有 270 个。我想将数据提取成整齐的格式。但由于向量大小不同,我无法轻松地将它们组合成 tibble。
这是我的代码以及一些关于结果的评论:
page <- read_html("https://postdocs.stanford.edu/about/department-postdoc-admins")
person_departments <- page %>%
html_elements(".item-list") %>%
html_element("h3") %>%
html_text2()
# The above code returns
person_names <- page %>%
html_elements(".item-list li") %>%
html_element("h4") %>%
html_text2()
# This one returns 270 names (some departments have more than 1 admin)
# Using the above codes, I can't get a nice table with two columns, one for the name and one for the person's department.