Adicionar número de série para atividade de cópia ao blob

Question

Andrea

Asked: 2025-03-30 02:31:27 +0800 CST2025-03-30 02:31:27 +0800 CST 2025-03-30 02:31:27 +0800 CST

Em R, como posso recolher os dados de linhas agrupadas em uma única linha?

772

Tenho o seguinte dataframe de exemplo:

df <- data.frame(
    record_id = c(1, 1, 1, 2, 2, 3, 3, 3),
    instance = c(NA, NA, 2, NA, 1, 2, NA, NA),
    A = c(10, NA, NA, 20, 25, NA, 30, NA),
    B = c(NA, 5, NA, NA, 5, 15, NA, 15),
    C = c(NA, NA, 3, NA, 5, 20, NA, 20),
    D = c(NA, NA, NA, 25, 25, 30, NA, 30)
)

  record_id instance  A  B  C  D
1         1       NA 10 NA NA NA
2         1       NA NA  5 NA NA
3         1        2 NA NA  3 NA
4         2       NA 20 NA NA 25
5         2        1 25  5  5 25
6         3        2 NA 15 20 30
7         3       NA 30 NA NA NA
8         3       NA NA 15 20 30

Se a instância for NA, quero que as linhas do mesmo record_id sejam recolhidas em uma linha. No meu dataframe, não haverá dois ou mais valores na mesma coluna para o mesmo record_id e grupo de instâncias NA.

Em outras palavras, eu gostaria de obter:

  record_id instance  A  B  C  D
1         1       NA 10  5 NA NA
2         1        2 NA NA  3 NA
3         2       NA 20 NA NA 25
4         2        1 25  5  5 25
5         3        2 NA 15 20 30
6         3       NA 30 15 20 30

Como posso fazer isso?

5 respostas

Voted

ThomasIsCoding · Answer 1 · 2025-03-30T04:08:16+08:00

ThomasIsCoding

2025-03-30T04:08:16+08:002025-03-30T04:08:16+08:00

Uma opção R básica comaggregate

sort_by(
  aggregate(. ~ record_id + factor(instance, exclude = NULL),
    df,
    \(x) ifelse(all(is.na(x)), NA, max(x, na.rm = TRUE)),
    na.action = na.pass
  )[names(df)],
  ~record_id
)

dá

  record_id instance  A  B  C  D
2         1        2 NA NA  3 NA
4         1       NA 10  5 NA NA
1         2        1 25  5  5 25
5         2       NA 20 NA NA 25
3         3        2 NA 15 20 30
6         3       NA 30 15 20 30

10

deschen · Answer 2 · 2025-03-30T02:47:48+08:00

Você poderia fazer:

df %>%
  group_by(record_id, instance) %>%
  summarize(across(everything(), ~first(sort(.x)))) %>%
  ungroup()

que dá:

# A tibble: 6 x 6
  record_id instance     A     B     C     D
      <dbl>    <dbl> <dbl> <dbl> <dbl> <dbl>
1         1        2    NA    NA     3    NA
2         1       NA    10     5    NA    NA
3         2        1    25     5     5    25
4         2       NA    20    NA    NA    25
5         3        2    NA    15    20    30
6         3       NA    30    15    20    30

Observação: este código pressupõe que você tenha apenas uma linha por record_id com a mesma instância (que não seja NA).

ATUALIZAÇÃO: Conforme discutido nos comentários, uma alternativa seria usar reframe:

df |> 
  reframe(across(everything(), ~first(sort(.x))), .by = c(record_id, instance))

que dá:

  record_id instance  A  B  C  D
1         1       NA 10  5 NA NA
2         1        2 NA NA  3 NA
3         2       NA 20 NA NA 25
4         2        1 25  5  5 25
5         3        2 NA 15 20 30
6         3       NA 30 15 20 30

r2evans · Answer 3 · 2025-03-30T03:23:15+08:00

Best Answer

r2evans

2025-03-30T03:23:15+08:002025-03-30T03:23:15+08:00

library(dplyr)
df |>
  reframe(
    .by = c(record_id, instance),
    across(everything(), ~ if (is.na(instance[1])) na.omit(.x)[1] else .x)
  )
#   record_id instance  A  B  C  D
# 1         1       NA 10  5 NA NA
# 2         1        2 NA NA  3 NA
# 3         2       NA 20 NA NA 25
# 4         2        1 25  5  5 25
# 5         3        2 NA 15 20 30
# 6         3       NA 30 15 20 30

ThomasIsCoding já forneceu uma excelente versão base R disto. Uma variante data.table é:

library(data.table)
setDT(df)
df[, lapply(.SD, \(x) if (is.na(instance[1])) na.omit(x)[1] else x), .(record_id, instance)]
#    record_id instance     A     B     C     D
#        <num>    <num> <num> <num> <num> <num>
# 1:         1       NA    10     5    NA    NA
# 2:         1        2    NA    NA     3    NA
# 3:         2       NA    20    NA    NA    25
# 4:         2        1    25     5     5    25
# 5:         3        2    NA    15    20    30
# 6:         3       NA    30    15    20    30

7

jay.sf · Answer 4 · 2025-03-30T13:05:02+08:00

Uma opção R base usando by,

> by(df, ~list(record_id, !is.na(instance)), \(x) {
+   sapply(x, \(z) if (!all(is.na(z))) unique(na.omit(z)) else unique(z))
+ }) |> do.call(what='rbind') |> as.data.frame() |> sort_by(~record_id)
  record_id instance  A  B  C  D
1         1       NA 10  5 NA NA
4         1        2 NA NA  3 NA
2         2       NA 20 NA NA 25
5         2        1 25  5  5 25
3         3       NA 30 15 20 30
6         3        2 NA 15 20 30

e um usando data.table.

> library(data.table); dt <- as.data.table(df)
>
> dt[, lapply(.SD, \(x) if (all(is.na(x))) unique(x) else unique(na.omit(x))),
+    by=.(record_id, instance)]
   record_id instance     A     B     C     D
       <num>    <num> <num> <num> <num> <num>
1:         1       NA    10     5    NA    NA
2:         1        2    NA    NA     3    NA
3:         2       NA    20    NA    NA    25
4:         2        1    25     5     5    25
5:         3        2    NA    15    20    30
6:         3       NA    30    15    20    30

TarJae · Answer 5 · 2025-03-30T16:05:48+08:00

TarJae

2025-03-30T16:05:48+08:002025-03-30T16:05:48+08:00

Aqui estão mais dois:
a primeira abordagem é semelhante à abordagem do @r2evans, mas usando reduce junto com coalesce.

library(dplyr)
library(purrr)

df |> 
  summarise(across(, ~ reduce(., coalesce)), .by=c(record_id, instance))

Segundo usando uma função personalizada:

library(dplyr)

coalesce_by_column <- function(df) {
  return(dplyr::coalesce(!!! as.list(df)))
}

df %>%
  summarise(across(everything(), coalesce_by_column), .by = c(record_id, instance))

saída:

  record_id instance  A  B  C  D
1         1       NA 10  5 NA NA
2         1        2 NA NA  3 NA
3         2       NA 20 NA NA 25
4         2        1 25  5  5 25
5         3        2 NA 15 20 30
6         3       NA 30 15 20 30

2

Em R, como posso recolher os dados de linhas agrupadas em uma única linha?

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Em R, como posso recolher os dados de linhas agrupadas em uma única linha?

5 respostas

relate perguntas