Adicionar número de série para atividade de cópia ao blob

Question

DaniCee

Asked: 2024-08-29 16:34:45 +0800 CST2024-08-29 16:34:45 +0800 CST 2024-08-29 16:34:45 +0800 CST

Separe a coluna recolhida em várias linhas, preservando as informações de agrupamento

772

Tenho uma tabela confusa que leio em um quadro de dados semelhante ao seguinte simplificado, que desejo analisar.

mydf <- data.frame(group=LETTERS[1:5], code=101:105, ids=c('g1:id1,id2,id3\ng2:id4,id5',
                                                           'id6,id7,id8,id9',
                                                           'g1:id10,id11\ng3:id12',
                                                           'g2:id13,id14',
                                                           'id15'))

Parece que:

> mydf
  group code                        ids
1     A  101 g1:id1,id2,id3\ng2:id4,id5
2     B  102            id6,id7,id8,id9
3     C  103      g1:id10,id11\ng3:id12
4     D  104               g2:id13,id14
5     E  105                       id15

Preciso separar a idscoluna recolhida em várias linhas para obter um quadro de dados final em formato longo.

Para isso, eu normalmente aplicaria separate_rowsfrom tidyr, mas esse caso tem um problema adicional: alguns dos recolhidos idsestão agrupados em subgrupos.

Acho que devo primeiro separar esses subgrupos em colunas de ids diferentes e depois aplicar separate_rowsou separate_longer_delimnessas colunas... Não sei como fazer isso.

O quadro de dados final que espero seria assim, em formato longo, com as subgroupinformações em uma coluna adicional:

> mydf_new
   group code   id subgroup
1      A  101  id1       g1
2      A  101  id2       g1
3      A  101  id3       g1
4      A  101  id4       g2
5      A  101  id5       g2
6      B  102  id6     <NA>
7      B  102  id7     <NA>
8      B  102  id8     <NA>
9      B  102  id9     <NA>
10     C  103 id10       g1
11     C  103 id11       g1
12     C  103 id12       g3
13     D  104 id13       g2
14     D  104 id14       g2
15     E  105 id15     <NA>

2 respostas

Voted

lroha · Answer 1 · 2024-08-29T16:45:44+08:00

Best Answer

lroha

2024-08-29T16:45:44+08:002024-08-29T16:45:44+08:00

Uma maneira é separar mais largo/longo em algumas etapas:

library(tidyr)
library(dplyr)

mydf |> 
  separate_longer_delim(ids, "\n") |> 
  separate_wider_delim(ids, ":", names = c("subgroup", "id"), too_few = "align_end") |> 
  separate_longer_delim(id, ",") |> 
  relocate(subgroup, .after = last_col())

# A tibble: 15 × 4
   group  code id    subgroup
   <chr> <int> <chr> <chr>   
 1 A       101 id1   g1      
 2 A       101 id2   g1      
 3 A       101 id3   g1      
 4 A       101 id4   g2      
 5 A       101 id5   g2      
 6 B       102 id6   NA      
 7 B       102 id7   NA      
 8 B       102 id8   NA      
 9 B       102 id9   NA      
10 C       103 id10  g1      
11 C       103 id11  g1      
12 C       103 id12  g3      
13 D       104 id13  g2      
14 D       104 id14  g2      
15 E       105 id15  NA

3

Friede · Answer 2 · 2024-08-29T20:20:50+08:00

Friede

2024-08-29T20:20:50+08:002024-08-29T20:20:50+08:00

Isso pode incluir alguns ajustes que você pode usar para desenvolver uma versão R básica mais consistente, se desejar:

id = read.table(text=mydf$ids, sep="\n", header=FALSE)
g = sub("\\:.*", "", id$V1); g[nchar(g)>2L]=NA
cbind(mydf[-3L][rep(seq(nrow(mydf)), sapply(mydf$ids, \(x) sum(utf8ToInt(x)==utf8ToInt("i")))), ], 
      id=unlist(i<-strsplit(sub(".*\\:", "", id$V1), ",")), 
      subgroup=rep(g, lengths(i)))

dando

    group code   id subgroup
1       A  101  id1       g1
1.1     A  101  id2       g1
1.2     A  101  id3       g1
1.3     A  101  id4       g2
1.4     A  101  id5       g2
2       B  102  id6     <NA>
2.1     B  102  id7     <NA>
2.2     B  102  id8     <NA>
2.3     B  102  id9     <NA>
3       C  103 id10       g1
3.1     C  103 id11       g1
3.2     C  103 id12       g3
4       D  104 id13       g2
4.1     D  104 id14       g2
5       E  105 id15     <NA>

1

Separe a coluna recolhida em várias linhas, preservando as informações de agrupamento

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Separe a coluna recolhida em várias linhas, preservando as informações de agrupamento

2 respostas

relate perguntas