Adicionar número de série para atividade de cópia ao blob

Question

M. Beausoleil

Asked: 2024-01-15 21:48:49 +0800 CST2024-01-15 21:48:49 +0800 CST 2024-01-15 21:48:49 +0800 CST

Como criar subconjuntos de várias colunas usando uma lista ou um quadro de dados com os valores a serem subconjuntos?

772

Eu tenho uma lista (com número ímpar de elementos):

my.list = list(col1 = c("CC", "CT", "TT"), 
     col2 = c("GG", "GT"), 
     col3 = c("CC", "CT"),
     col4 = c("CC", "CG", "GG"), 
     col5 = c("AC", "CC"),
     col6 = "GG")

$col1
[1] "CC" "CT" "TT"

$col2
[1] "GG" "GT"

$col3
[1] "CC" "CT"

$col4
[1] "CC" "CG" "GG"

$col5
[1] "AC" "CC"

$col6
[1] "GG"

Que pode ser transformado em um quadro de dados:

mylist.df = plyr::ldply(my.list, rbind)
names(mylist.df) <- c("cols","g1", "g2", "g3")

E quero criar um subconjunto do quadro de dados abaixo usando mylistou mylist.df. Basicamente, quero manter todas as linhas que tenham pelo menos um elemento de cada valor em mylist:

df.to.subset = structure(list(IDs = c("ID1", "ID2", "ID3", "ID4", "ID5", "ID6"), 
               gr = c("gr1", "gr1", "gr1", "gr1", "gr1", "gr1"), 
               var = c(-3.451, -3.469, -3.837, -3.344, -3.904, -3.943), 
               col1 = structure(c(1L, 2L, 3L, 1L, 2L, 2L), levels = c("CC", "CT", "TT"), class = "factor"), 
               col2 = structure(c(1L, 1L, 2L, 3L, 3L, 3L), levels = c("GG", "GT", "TT"), class = "factor"), 
               col3 = structure(c(1L, 2L, 1L, 1L, 1L, 1L), levels = c("CC", "CT"), class = "factor"), 
               col4 = structure(c(2L, 2L, 2L, 2L, 2L, 2L), levels = c("CC", "CG", "GG"), class = "factor"), 
               col5 = structure(c(1L, 2L, 2L, 2L, 2L, 2L), levels = c("AC", "CC"), class = "factor"), 
               col6 = structure(c(1L, 1L, 2L, 1L, 1L, 1L), levels = c("GG","AA"), class = "factor")), 
          row.names = c(NA, 
                        -6L), class = c("tbl_df", "tbl", "data.frame"))

  IDs   gr      var col1  col2  col3  col4  col5  col6 
  <chr> <chr> <dbl> <fct> <fct> <fct> <fct> <fct> <fct>
1 ID1   gr1   -3.45 CC    GG    CC    CG    AC    GG   
2 ID2   gr1   -3.47 CT    GG    CT    CG    CC    GG   
3 ID3   gr1   -3.84 TT    GT    CC    CG    CC    AA   
4 ID4   gr1   -3.34 CC    TT    CC    CG    CC    GG   
5 ID5   gr1   -3.90 CT    TT    CC    CG    CC    GG   
6 ID6   gr1   -3.94 CT    TT    CC    CG    CC    GG

(O resultado final seria)

  IDs   gr      var col1  col2  col3  col4  col5  col6 
  ID1   gr1   -3.45 CC    GG    CC    CG    AC    GG   
  ID2   gr1   -3.47 CT    GG    CT    CG    CC    GG

Além disso, gostaria de nivelar novamente cada coluna para df.to.subsetcorresponder aos níveis deste quadro de dados:

factor.levels.cols = structure(list(cols = c("col1", "col2", "col3", "col4", "col5", "col6"), 
               g1 = c("CC", "GG", "CC", "CC", "AA", "AA"), 
               g2 = c("CT", "GT", "CT", "CG", "AC", "AG"), 
               g3 = c("TT", "TT", "TT", "GG", "CC", "GG")), 
          row.names = c(NA, 6L), class = "data.frame")

  cols g1 g2 g3
1 col1 CC CT TT
2 col2 GG GT TT
3 col3 CC CT TT
4 col4 CC CG GG
5 col5 AA AC CC
6 col6 AA AG GG

Um loop for é obrigatório aqui ou existe uma maneira de torná-lo mais rápido? Tenho mais de 1.000.000 de entradas para modificar.

3 respostas

Voted

ThomasIsCoding · Answer 1 · 2024-01-15T21:59:01+08:00

Abaixo está apenas uma opção R básica para fazer isso.

Eu acho que você pode subconjunto df.to.subsetcomo abaixo

out <- df.to.subset[rowMeans(mapply(`%in%`, df.to.subset[names(my.list)], my.list)) == 1, ]

que dá

# A tibble: 2 × 9
  IDs   gr      var col1  col2  col3  col4  col5  col6
  <chr> <chr> <dbl> <fct> <fct> <fct> <fct> <fct> <fct>
1 ID1   gr1   -3.45 CC    GG    CC    CG    AA    AA
2 ID2   gr1   -3.47 CT    GG    CT    CG    AC    AA

Se você quiser nivelar novamente as colunas, você pode tentar

lvls <- with(
    reshape(
        factor.levels.cols,
        direction = "long",
        idvar = "cols",
        varying = -1,
        v.names = "g"
    ),
    split(g, cols)
)
out[names(lvls)] <- Map(`levels<-`, out[names(lvls)], lvls)

e você verá que os níveis são redefinidos para os níveis desejados

> str(out)
tibble [2 × 9] (S3: tbl_df/tbl/data.frame)
 $ IDs : chr [1:2] "ID1" "ID2"
 $ gr  : chr [1:2] "gr1" "gr1"
 $ var : num [1:2] -3.45 -3.47
 $ col1: Factor w/ 3 levels "CC","CT","TT": 1 2
 $ col2: Factor w/ 3 levels "GG","GT","TT": 1 1
 $ col3: Factor w/ 3 levels "CC","CT","TT": 1 2
 $ col4: Factor w/ 3 levels "CC","CG","GG": 2 2
 $ col5: Factor w/ 3 levels "AA","AC","CC": 1 2
 $ col6: Factor w/ 3 levels "AA","AG","GG": 1 1

tmfmnk · Answer 2 · 2024-01-15T22:43:45+08:00

Uma dplyrresposta para o primeiro problema:

df.to.subset %>%
 filter((if_all(starts_with("col"), ~ . %in% my.list[[cur_column()]])))

  IDs   gr      var col1  col2  col3  col4  col5  col6 
  <chr> <chr> <dbl> <fct> <fct> <fct> <fct> <fct> <fct>
1 ID1   gr1   -3.45 CC    GG    CC    CG    AC    GG   
2 ID2   gr1   -3.47 CT    GG    CT    CG    CC    GG

Para incluir os níveis dos fatores:

df.to.subset %>%
 filter((if_all(starts_with("col"), ~ . %in% my.list[[cur_column()]]))) %>%
 mutate(across(starts_with("col"), 
               ~ factor(.,
                        levels = unlist(factor.levels.cols[factor.levels.cols[["cols"]] == cur_column(), -1]))))

tibble [2 × 9] (S3: tbl_df/tbl/data.frame)
 $ IDs : chr [1:2] "ID1" "ID2"
 $ gr  : chr [1:2] "gr1" "gr1"
 $ var : num [1:2] -3.45 -3.47
 $ col1: Factor w/ 3 levels "CC","CT","TT": 1 2
 $ col2: Factor w/ 3 levels "GG","GT","TT": 1 1
 $ col3: Factor w/ 3 levels "CC","CT","TT": 1 2
 $ col4: Factor w/ 3 levels "CC","CG","GG": 2 2
 $ col5: Factor w/ 3 levels "AA","AC","CC": 2 3
 $ col6: Factor w/ 3 levels "AA","AG","GG": 3 3

jay.sf · Answer 3 · 2024-01-16T02:17:11+08:00

Usando `%in%`in mapply, negue-o e subconjunto para zero rowSums.

> df.to.subset[rowSums(!mapply(\(x, y) x %in% y, df.to.subset[names(my.list)], my.list)) == 0, ]
# A tibble: 2 x 9
  IDs   gr      var col1  col2  col3  col4  col5  col6 
  <chr> <chr> <dbl> <fct> <fct> <fct> <fct> <fct> <fct>
1 ID1   gr1   -3.45 CC    GG    CC    CG    AC    GG   
2 ID2   gr1   -3.47 CT    GG    CT    CG    CC    GG

Dados:

> my.list |> dput()
list(col1 = c("CC", "CT", "TT"), col2 = c("GG", "GT"), col3 = c("CC", 
"CT"), col4 = c("CC", "CG", "GG"), col5 = c("AC", "CC"), col6 = "GG")
> df.to.subset |> dput()
structure(list(IDs = c("ID1", "ID2", "ID3", "ID4", "ID5", "ID6"
), gr = c("gr1", "gr1", "gr1", "gr1", "gr1", "gr1"), var = c(-3.451, 
-3.469, -3.837, -3.344, -3.904, -3.943), col1 = structure(c(1L, 
2L, 3L, 1L, 2L, 2L), levels = c("CC", "CT", "TT"), class = "factor"), 
    col2 = structure(c(1L, 1L, 2L, 3L, 3L, 3L), levels = c("GG", 
    "GT", "TT"), class = "factor"), col3 = structure(c(1L, 2L, 
    1L, 1L, 1L, 1L), levels = c("CC", "CT"), class = "factor"), 
    col4 = structure(c(2L, 2L, 2L, 2L, 2L, 2L), levels = c("CC", 
    "CG", "GG"), class = "factor"), col5 = structure(c(1L, 2L, 
    2L, 2L, 2L, 2L), levels = c("AC", "CC"), class = "factor"), 
    col6 = structure(c(1L, 1L, 2L, 1L, 1L, 1L), levels = c("GG", 
    "AA"), class = "factor")), row.names = c(NA, -6L), class = c("tbl_df", 
"tbl", "data.frame"))

Como criar subconjuntos de várias colunas usando uma lista ou um quadro de dados com os valores a serem subconjuntos?

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Como criar subconjuntos de várias colunas usando uma lista ou um quadro de dados com os valores a serem subconjuntos?

3 respostas

relate perguntas