Adicionar número de série para atividade de cópia ao blob

Question

Kason Glover

Asked: 2025-04-19 22:58:35 +0800 CST2025-04-19 22:58:35 +0800 CST 2025-04-19 22:58:35 +0800 CST

Gráfico exploratório para análise de tópicos em R

772

Estou fazendo uma análise exploratória básica de tópicos de duas respostas a perguntas diferentes e tentando visualizar os resultados por pergunta. Estou trabalhando no RStudio e usando um arquivo RMarkdown. O conjunto de dados de exemplo que criei aqui é bem menor do que o que estou usando, o que não deve ser um problema para descrever o problema. Abaixo está todo o código para obter a matriz e a tabela gama, mas tudo funciona bem.

library(tidyverse)
library(tidytext)
library(stm)

#here is a representative example of my data
Term <- c("y57","t44","y57","t44","y57","t44","t44","y57")
Question <- c(1,1,1,1,2,2,2,2)
Id <- c(1,2,1,2,3,4,4,3)
Text <- c("words that are all here in this dataframe", "other sorts of things to meet the needs of the data", "stuff and the like about such and such and this that and the other", "et cetera and so on and so forth and on ad nauseum", "bla bla shockablooey the hooey is newey to youey", "wooly sheep are superior to all other sheep", "come together in this hour of great trial", "right words are different from wrong ones")

df_data <- data.frame(term = Term, question = Question, id = Id, text = Text)

#unnesting the words into a new dataframe
df_tidy <- 
  df_data %>% 
  unnest_tokens(word,text)

#setting up the necessary pieces for the topic analysis plot
df_sparse <-
  df_tidy %>% 
  count(id,word) %>% 
  filter(n > 1) %>% 
  cast_sparse(id,word,n)

set.seed(216)
topic_model_5 <- stm(df_sparse, K = 5)

df_gamma_5 <-
  tidy(topic_model_5,
       matrix = "gamma",
       document_names = rownames(df_sparse))

Meu problema está na preparação final para a plotagem, na qual quero ordenar os tópicos por uma variável (pergunta) para obter dois gráficos. Estou tentando usar a função left_join entre "df_data" e "df_gamma_5". Pelo menos é isso que acho que este segmento está tentando fazer...

#object type troubleshooting that made sense to me
df_data$question <- as.factor(df_data$question)
df_data$id <- as.character(df_data$id)

#what I can't get unstuck, which I think has to be from the left_join somehow
df_gamma_5 %>% 
  left_join(
    df_data %>% 
      select(question, document = id) %>% 
      mutate(question, fct_inorder(question)),
    relationship = "many-to-many"
  ) %>% 
  mutate(topic = factor(topic)) +
  ggplot(aes(gamma, topic, fill = topic)) +
  geom_boxplot(alpha = 0.7, show.legend = TRUE) +
  ggtitle("topics by question") +
  facet_wrap(vars(term)) %>% 
  print()

A mensagem de erro que recebo dessa linha é:

Joining with `by = join_by(document) `Warning: Detected an unexpected many-to-many relationship between `x` and `y`. Error in `fortify()`:
! `data` must be a <data.frame>, or an object coercible by
  `fortify()`, or a valid <data.frame>-like object coercible by
  `as.data.frame()`, not a <uneval> object.
ℹ Did you accidentally pass `aes()` to the `data` argument?
Run `rlang::last_trace()` to see where the error occurred.

Isso está me deixando louco porque segui um exemplo online usando dados de letras de Taylor Swift ( https://www.youtube.com/watch?v=rXDv0ZuX0Fc&t=216s ) e o código que escrevi para esse exemplo funcionou perfeitamente. O gráfico que quero é essencialmente o mesmo do vídeo, exceto que em vez de gráficos por álbum (n=11) quero gráficos por pergunta (n=2). Em uma análise mais complexa, gostaria de um 2x2 com cada amostra de gráfico selecionada por termo e pergunta, mas isso é para outro dia. Suspeito que o problema tenha algo a ver com o fato de que, ao contrário do catálogo de Taylor Swift, onde as letras de cada música são uma observação distinta, tenho duas observações de texto diferentes para cada variável id. Não sei se esse é o problema, e mesmo se soubesse, não sei como resolvê-lo.

Estou aprendendo R (e programação em geral) há dez dias, então qualquer ajuda será muito mais difícil do que eu tentar me agarrar a qualquer coisa. Obrigado!

1 respostas

Voted

Friede · Answer 1 · 2025-04-20T01:22:39+08:00

Isso pode te aproximar. Há vários erros de digitação! E o resultado desejado é desconhecido.

Alterações no último bloco de código.

(1) Crie documentum df_gamma_5inteiro ou um documentcaractere df_data. Você pode querer fazer isso em uma etapa anterior.

(2) Para que mutate(question, fct_inorder(question))serve? Se realmente for necessário, então faça mutate(question = fct_inorder(question)).

(3) mutate(topic = factor(topic))pode ser feito dentro de aes().

(4) Não há termvariável. Alterado vars(term)para ~questiondentro de facet_wrap().

df_gamma_5 |>
  mutate(document=as.character(document)) |> 
  # or as.integer()/strtoi() for df_data
  left_join(df_data |> select(question, document=id), 
            relationship='many-to-many') |> # could be skipped 
  ggplot(aes(x=gamma, y=topic, fill=factor(topic))) +
  geom_boxplot(alpha=.7, show.legend=TRUE) +
  facet_wrap(~question) +
  ggtitle('topics by question')

Trama

Recomendação: Eu suprimia o eixo y ( y) ou a estética de preenchimento ( fill). Dois indicadores para uma variável são, de certa forma, enganosos/distrativos visuais.

Observação : Eu uso acentos graves simples ( ') em vez de acentos duplos ( "). Utilizo o Roperador de base nativo em vez do operador de barra vertical ( pipe ) |>um tanto desatualizado . Por fim, costumo evitar espaços em ambos os lados de . Isso não é apenas uma questão de preferência pessoal.{magrittr}%>%=

Gráfico exploratório para análise de tópicos em R

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Gráfico exploratório para análise de tópicos em R

1 respostas

relate perguntas