Ben提出的问题 -coding

Ben

Asked: 2025-04-09 03:46:42 +0800 CST

Como subdividir SOTU dfm para os presidentes Bush e Carter em sotu e quanteda para gerar um gráfico de nuvem de palavras?

Estou trabalhando com o corpus SOTU da quanteda e preciso subdividi-lo para analisar os discursos do presidente Bush e Carter.

Estou aprendendo a pré-processar o corpus no formato dfm, mas não tenho certeza de como corrigir o erro. Este é o código que tenho agora.

library("quanteda")
library("dplyr")
library("sotu")

textplot_scale1d(wf_sotu)

sotu_meta %>%
  filter(!duplicated(president, fromLast = TRUE)) %>% tail()

sotu <- sotu_meta %>%
  bind_cols(text = sotu_text) %>%
  mutate(docnames = paste(president, year, sep = ": "))
sotu

sotu_dfm <- sotu %>%
  corpus(
    docid_field = "docnames",
    text_field = "text"
  ) %>%
  dfm_select(pattern = dict, 
        valuetype = "regex")%>%
  dfm_remove(stopwords())

Recebo a seguinte mensagem de erro:

Error in corpus.character(x[[text_index]], docvars = docvars, docnames = docname,  : 
  docnames must be unique

Ben

Asked: 2024-12-22 06:48:31 +0800 CST

Como exibir rótulos de tempo no eixo X corretamente no R ggplot

Eu tento plotar os dados com R ggplot, mas o rótulo de tempo não pode ser exibido no eixo x corretamente. Qualquer conselho será muito apreciado.

Veja como são os dados de exemplo:

structure(list(activity = c("Running", "Running", "Running", 
"Running", "Running", "Running", "Running", "Running", "Running", 
"Running"), time = structure(c(-2209064400, -2209064100, -2209063800, 
-2209063500, -2209063200, -2209062900, -2209062600, -2209062300, 
-2209062000, -2209061700), tzone = "UTC", class = c("POSIXct", 
"POSIXt")), level = c(0.0450582956975968, 0.049786810752437, 
0.049786810752437, 0.0409378662803991, 0.0373264654807176, 0.0373264654807176, 
0.0518442650051548, 0.0471157499503146, 0.0527766243609182, 0.0615719801782924
)), row.names = c(NA, -10L), class = c("tbl_df", "tbl", "data.frame"
))

Os dados podem ser visualizados corretamente no Excel.

Mas não consigo plotar os mesmos dados corretamente em R. Os rótulos de tempo não são apresentados adequadamente e o formato dos dados também parece errado.

Aqui estão os códigos R que eu uso:

ggplot(df2, aes(x = time, y = activity)) + geom_density_ridges2()

Como subdividir SOTU dfm para os presidentes Bush e Carter em sotu e quanteda para gerar um gráfico de nuvem de palavras?

Como exibir rótulos de tempo no eixo X corretamente no R ggplot

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Ben's questions