Digamos que eu raspei um código como o seguinte:
library(rvest)
library(dplyr)
test <- minimal_html('
<div class="entry">
<div class="book">
<div class="booktitle">Book 1</div>
<div class="year">1991</div>
</div>
<div class="book dont-use">
<div class="booktitle">Book 2</div>
<div class="year">1979</div>
</div>
<div class="book">
<div class="booktitle">Book 3</div>
<div class="year">1399</div>
</div>
<div class="book dont-use">
<div class="booktitle">Book 4</div>
<div class="year">1949</div>
</div>
</div>')
Para selecionar tudo que contém book
em sua classe, posso usar:
test %>% html_elements(".book")
Isso retorna todos os quatro objetos.
Porém, não quero selecionar a segunda e a quarta entradas, que têm como classe book dont-use
. Como posso selecionar apenas a primeira e a terceira entradas? Em outras palavras, como posso modificar o código para selecionar apenas exatamente book
?
Você pode usar o seletor de valor de atributo:
Criado em 08/08/2024 com reprex v2.1.1