Adicionar número de série para atividade de cópia ao blob

Question

TarJae

Asked: 2024-08-21 02:05:51 +0800 CST2024-08-21 02:05:51 +0800 CST 2024-08-21 02:05:51 +0800 CST

Como unir duas colunas de comprimentos desiguais combinando strings idênticas

772

Eu tenho dois tibbles com valores únicos, com comprimentos desiguais, como:

df1 <- structure(list(col1 = c("A", "T", "C", "D", "X", "F")), class = c("tbl_df", "tbl", "data.frame"), row.names = c(NA, -6L))
df2 <- structure(list(col2 = c("A", "B", "C", "D", "E", "F", "G", "H", "I", "J")), class = c("tbl_df", "tbl", "data.frame"), row.names = c(NA, -10L))

> df1
# A tibble: 6 × 1
  col1 
  <chr>
1 A    
2 T    
3 C    
4 D    
5 X    
6 F

> df2
# A tibble: 9 × 1
  col2 
  <chr>
1 A    
2 B    
3 C    
4 D    
5 F    
6 G    
7 H    
8 I    
9 J

Eu gostaria de obter:

> df3
# A tibble: 11 × 2
   col1  col2 
   <chr> <chr>
 1 A     A    
 2 NA    B    
 3 T     NA   
 4 C     C    
 5 D     D    
 6 X     NA   
 7 F     F    
 8 NA    G    
 9 NA    H    
10 NA    I    
11 NA    J

Cada string idêntica em col1 de df1 e col2 em df2 deve estar na mesma linha lado a lado. Por exemplo, se uma string em col1 e col2 for a mesma, elas deverão estar na mesma linha (por exemplo, string A). Se existir uma string em col1, mas não em col2, ela deverá ser NA em col2 e vice-versa.

Eu ficaria grato por qualquer conselho adicional.

3 respostas

Voted

Seth · Answer 1 · 2024-08-21T02:14:36+08:00

Best Answer

Seth

2024-08-21T02:14:36+08:002024-08-21T02:14:36+08:00

library(dplyr)

full_join(df1, df2, by = join_by(col1 == col2), keep = TRUE)
#> # A tibble: 12 × 2
#>    col1  col2 
#>    <chr> <chr>
#>  1 A     A    
#>  2 T     <NA> 
#>  3 C     C    
#>  4 D     D    
#>  5 X     <NA> 
#>  6 F     F    
#>  7 <NA>  B    
#>  8 <NA>  E    
#>  9 <NA>  G    
#> 10 <NA>  H    
#> 11 <NA>  I    
#> 12 <NA>  J

5

ThomasIsCoding · Answer 2 · 2024-08-21T04:13:32+08:00

Uma solução base R

lst <- c(df1, df2)
v <- unique(unlist(lst))
list2DF(lapply(lst, \(x) x[match(v, x)]))

dá

   col1 col2
1     A    A
2     T <NA>
3     C    C
4     D    D
5     X <NA>
6     F    F
7  <NA>    B
8  <NA>    E
9  <NA>    G
10 <NA>    H
11 <NA>    I
12 <NA>    J

Outra solução base R está usando stack+reshape

reshape(
  transform(
    stack(c(df1, df2)),
    r = as.integer(factor(values))
  ),
  direction = "wide",
  idvar = "r",
  timevar = "ind"
)[-1]

o que dá

   values.col1 values.col2
1            A           A
2            T        <NA>
3            C           C
4            D           D
5            X        <NA>
6            F           F
8         <NA>           B
11        <NA>           E
13        <NA>           G
14        <NA>           H
15        <NA>           I
16        <NA>           J

A opção R de terceira base está usandotable

d <- table(stack(c(df1, df2)))
as.data.frame(ifelse(d > 0, row.names(d), NA))

o que dá

  col1 col2
A    A    A
B <NA>    B
C    C    C
D    D    D
E <NA>    E
F    F    F
G <NA>    G
H <NA>    H
I <NA>    I
J <NA>    J
T    T <NA>
X    X <NA>

Referência

tic1 <- \() {
  lst <- c(df1, df2)
  v <- unique(unlist(lst))
  list2DF(lapply(lst, \(x) x[match(v, x)]))
}

tic2 <- \() {
  reshape(
    transform(
      stack(c(df1, df2)),
      r = as.integer(factor(values))
    ),
    direction = "wide",
    idvar = "r",
    timevar = "ind"
  )[-1]
}

tic3 <- \() {
  d <- table(stack(c(df1, df2)))
  as.data.frame(ifelse(d > 0, row.names(d), NA))
}

microbenchmark(
  tic1(),
  tic2(),
  tic3(),
  unit = "relative"
)

mostra

Unit: relative
   expr      min        lq      mean   median        uq      max neval
 tic1()  1.00000  1.000000  1.000000  1.00000  1.000000 1.000000   100
 tic2() 40.30049 30.210059 16.153643 30.60000 24.474138 1.423185   100
 tic3() 13.77833  9.902367  6.136188 10.15569  9.180251 1.553357   100

GKi · Answer 3 · 2024-08-21T13:53:39+08:00

GKi

2024-08-21T13:53:39+08:002024-08-21T13:53:39+08:00

Uma solução básica usando merge, adicionando uma nova coluna para mesclar e removê-la posteriormente.

merge(cbind(x=df1[[1]], df1), cbind(x=df2[[1]], df2), all=TRUE)[-1]
#   col1 col2
#1     A    A
#2  <NA>    B
#3     C    C
#4     D    D
#5  <NA>    E
#6     F    F
#7  <NA>    G
#8  <NA>    H
#9  <NA>    I
#10 <NA>    J
#11    T <NA>
#12    X <NA>

3

Como unir duas colunas de comprimentos desiguais combinando strings idênticas

Referência

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Como unir duas colunas de comprimentos desiguais combinando strings idênticas

3 respostas

Referência

relate perguntas