假设我抓取了如下代码:
library(rvest)
library(dplyr)
test <- minimal_html('
<div class="entry">
<div class="book">
<div class="booktitle">Book 1</div>
<div class="year">1991</div>
</div>
<div class="book dont-use">
<div class="booktitle">Book 2</div>
<div class="year">1979</div>
</div>
<div class="book">
<div class="booktitle">Book 3</div>
<div class="year">1399</div>
</div>
<div class="book dont-use">
<div class="booktitle">Book 4</div>
<div class="year">1949</div>
</div>
</div>')
要选择book
其类别中包含的所有内容,我可以使用:
test %>% html_elements(".book")
这将返回所有四个对象。
但是,我不想选择类为 的第二和第四个条目book dont-use
。我怎样才能只选择第一和第三个条目?换句话说,我怎样才能修改代码以仅精确选择book
?
您可以使用属性值选择器:
创建于 2024-08-08,使用reprex v2.1.1