Adicionar número de série para atividade de cópia ao blob

Question

Jaken

Asked: 2025-01-14 06:24:15 +0800 CST2025-01-14 06:24:15 +0800 CST 2025-01-14 06:24:15 +0800 CST

Fazendo lista de strings enquanto sumariza com dplyr [duplicado]

772

Tenho uma série de dataframes, cada um dos quais contém uma coluna de nome e, em seguida, uma coluna de texto. Gostaria de encontrar duplicatas no texto e, em seguida, gerar uma lista de todos os nomes que estão associados à duplicata. Posso chegar a obter uma lista das duplicatas de texto e o número de vezes que cada duplicata ocorre, mas estou com dificuldades para encontrar uma maneira de obter a lista de nomes associados. Aqui está um exemplo reproduzível:

#two separate data frames with name/string
books1 <- data.frame(
  name=rep("Ellie", 4),
  book= c("Anne of Green Gables", "The Secret Garden", "Alice in Wonderland", "A Little Princess"))

books2 <- data.frame(
  name=rep('Jess', 6),
  book=c("Harry Potter", "Percy Jackson", "Anne of Green Gables", "Chronicles of Narnia", "Redwall", "A Little Princess"))

#combine into single data frame
books <- bind_rows(books1, books2)

#identify repeats
repeatbooks <- books %>% group_by(book) %>% summarize(n=n())

Isso me dá:

  book                     n
1 A Little Princess        2
2 Alice in Wonderland      1
3 Anne of Green Gables     2
4 Chronicles of Narnia     1
5 Harry Potter             1
6 Percy Jackson            1
7 Redwall                  1
8 The Secret Garden        1

O que eu gostaria é algo como:

  book                     n     name
1 A Little Princess        2     Ellie, Jess
2 Alice in Wonderland      1     Ellie
3 Anne of Green Gables     2     Ellie, Jess

Eu esperava fazer algo assim, mas isso cria várias linhas, em vez de agrupar os nomes em uma única linha

#identify repeats while catching associated names - doesn't group into single column
repeatbooks <- books %>% group_by(book) %>% summarize(n=n(), names=c(paste0(name), ', '))

2 respostas

Voted

ThomasIsCoding · Answer 1 · 2025-01-14T06:31:58+08:00

Best Answer

ThomasIsCoding

2025-01-14T06:31:58+08:002025-01-14T06:31:58+08:00

Você quer dizer algo como abaixo

books %>%
  reframe(
    n = n(),
    name = toString(unique(name)),
    .by = book
  )

tal que

                  book n        name
1 Anne of Green Gables 2 Ellie, Jess
2    The Secret Garden 1       Ellie
3  Alice in Wonderland 1       Ellie
4    A Little Princess 2 Ellie, Jess
5         Harry Potter 1        Jess
6        Percy Jackson 1        Jess
7 Chronicles of Narnia 1        Jess
8              Redwall 1        Jess

1

BEVAN · Answer 2 · 2025-01-14T07:58:09+08:00

BEVAN

2025-01-14T07:58:09+08:002025-01-14T07:58:09+08:00

Modificar levemente sua primeira tentativa faz com que funcione se você colocar o valor de collapse na chamada paste0. Estranhamente, porém, só funciona se você definir explicitamente o valor de collapse.

#two separate data frames with name/string
books1 <- data.frame(
  name = rep("Ellie", 4),
  book = c(
    "Anne of Green Gables",
    "The Secret Garden",
    "Alice in Wonderland",
    "A Little Princess"
  )
)

books2 <- data.frame(
  name = rep('Jess', 6),
  book = c(
    "Harry Potter",
    "Percy Jackson",
    "Anne of Green Gables",
    "Chronicles of Narnia",
    "Redwall",
    "A Little Princess"
  )
)

#combine into single data frame
books <- bind_rows(books1, books2)

#identify repeats

#works

repeatbooks <- books %>% group_by(book) %>% summarize(n = n(), names = paste0(name, collapse = ', '))

# does not work

repeatbooks <- books %>% group_by(book) %>% summarize(n = n(), names = paste0(name, ', '))

1

Fazendo lista de strings enquanto sumariza com dplyr [duplicado]

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Fazendo lista de strings enquanto sumariza com dplyr [duplicado]

2 respostas

relate perguntas