Estou trabalhando com o corpus SOTU da quanteda e preciso subdividi-lo para analisar os discursos do presidente Bush e Carter.
Estou aprendendo a pré-processar o corpus no formato dfm, mas não tenho certeza de como corrigir o erro. Este é o código que tenho agora.
library("quanteda")
library("dplyr")
library("sotu")
textplot_scale1d(wf_sotu)
sotu_meta %>%
filter(!duplicated(president, fromLast = TRUE)) %>% tail()
sotu <- sotu_meta %>%
bind_cols(text = sotu_text) %>%
mutate(docnames = paste(president, year, sep = ": "))
sotu
sotu_dfm <- sotu %>%
corpus(
docid_field = "docnames",
text_field = "text"
) %>%
dfm_select(pattern = dict,
valuetype = "regex")%>%
dfm_remove(stopwords())
Recebo a seguinte mensagem de erro:
Error in corpus.character(x[[text_index]], docvars = docvars, docnames = docname, : docnames must be unique