AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / coding / Perguntas / 77820242
Accepted
M. Beausoleil
M. Beausoleil
Asked: 2024-01-15 21:48:49 +0800 CST2024-01-15 21:48:49 +0800 CST 2024-01-15 21:48:49 +0800 CST

Como criar subconjuntos de várias colunas usando uma lista ou um quadro de dados com os valores a serem subconjuntos?

  • 772

Eu tenho uma lista (com número ímpar de elementos):

my.list = list(col1 = c("CC", "CT", "TT"), 
     col2 = c("GG", "GT"), 
     col3 = c("CC", "CT"),
     col4 = c("CC", "CG", "GG"), 
     col5 = c("AC", "CC"),
     col6 = "GG")

$col1
[1] "CC" "CT" "TT"

$col2
[1] "GG" "GT"

$col3
[1] "CC" "CT"

$col4
[1] "CC" "CG" "GG"

$col5
[1] "AC" "CC"

$col6
[1] "GG"

Que pode ser transformado em um quadro de dados:

mylist.df = plyr::ldply(my.list, rbind)
names(mylist.df) <- c("cols","g1", "g2", "g3")

E quero criar um subconjunto do quadro de dados abaixo usando mylistou mylist.df. Basicamente, quero manter todas as linhas que tenham pelo menos um elemento de cada valor em mylist:

df.to.subset = structure(list(IDs = c("ID1", "ID2", "ID3", "ID4", "ID5", "ID6"), 
               gr = c("gr1", "gr1", "gr1", "gr1", "gr1", "gr1"), 
               var = c(-3.451, -3.469, -3.837, -3.344, -3.904, -3.943), 
               col1 = structure(c(1L, 2L, 3L, 1L, 2L, 2L), levels = c("CC", "CT", "TT"), class = "factor"), 
               col2 = structure(c(1L, 1L, 2L, 3L, 3L, 3L), levels = c("GG", "GT", "TT"), class = "factor"), 
               col3 = structure(c(1L, 2L, 1L, 1L, 1L, 1L), levels = c("CC", "CT"), class = "factor"), 
               col4 = structure(c(2L, 2L, 2L, 2L, 2L, 2L), levels = c("CC", "CG", "GG"), class = "factor"), 
               col5 = structure(c(1L, 2L, 2L, 2L, 2L, 2L), levels = c("AC", "CC"), class = "factor"), 
               col6 = structure(c(1L, 1L, 2L, 1L, 1L, 1L), levels = c("GG","AA"), class = "factor")), 
          row.names = c(NA, 
                        -6L), class = c("tbl_df", "tbl", "data.frame"))

  IDs   gr      var col1  col2  col3  col4  col5  col6 
  <chr> <chr> <dbl> <fct> <fct> <fct> <fct> <fct> <fct>
1 ID1   gr1   -3.45 CC    GG    CC    CG    AC    GG   
2 ID2   gr1   -3.47 CT    GG    CT    CG    CC    GG   
3 ID3   gr1   -3.84 TT    GT    CC    CG    CC    AA   
4 ID4   gr1   -3.34 CC    TT    CC    CG    CC    GG   
5 ID5   gr1   -3.90 CT    TT    CC    CG    CC    GG   
6 ID6   gr1   -3.94 CT    TT    CC    CG    CC    GG   

(O resultado final seria)

  IDs   gr      var col1  col2  col3  col4  col5  col6 
  ID1   gr1   -3.45 CC    GG    CC    CG    AC    GG   
  ID2   gr1   -3.47 CT    GG    CT    CG    CC    GG   

Além disso, gostaria de nivelar novamente cada coluna para df.to.subsetcorresponder aos níveis deste quadro de dados:

factor.levels.cols = structure(list(cols = c("col1", "col2", "col3", "col4", "col5", "col6"), 
               g1 = c("CC", "GG", "CC", "CC", "AA", "AA"), 
               g2 = c("CT", "GT", "CT", "CG", "AC", "AG"), 
               g3 = c("TT", "TT", "TT", "GG", "CC", "GG")), 
          row.names = c(NA, 6L), class = "data.frame")

  cols g1 g2 g3
1 col1 CC CT TT
2 col2 GG GT TT
3 col3 CC CT TT
4 col4 CC CG GG
5 col5 AA AC CC
6 col6 AA AG GG

Um loop for é obrigatório aqui ou existe uma maneira de torná-lo mais rápido? Tenho mais de 1.000.000 de entradas para modificar.

  • 3 3 respostas
  • 62 Views

3 respostas

  • Voted
  1. Best Answer
    ThomasIsCoding
    2024-01-15T21:59:01+08:002024-01-15T21:59:01+08:00

    Abaixo está apenas uma opção R básica para fazer isso.


    Eu acho que você pode subconjunto df.to.subsetcomo abaixo

    out <- df.to.subset[rowMeans(mapply(`%in%`, df.to.subset[names(my.list)], my.list)) == 1, ]
    

    que dá

    # A tibble: 2 × 9
      IDs   gr      var col1  col2  col3  col4  col5  col6
      <chr> <chr> <dbl> <fct> <fct> <fct> <fct> <fct> <fct>
    1 ID1   gr1   -3.45 CC    GG    CC    CG    AA    AA
    2 ID2   gr1   -3.47 CT    GG    CT    CG    AC    AA   
    

    Se você quiser nivelar novamente as colunas, você pode tentar

    lvls <- with(
        reshape(
            factor.levels.cols,
            direction = "long",
            idvar = "cols",
            varying = -1,
            v.names = "g"
        ),
        split(g, cols)
    )
    out[names(lvls)] <- Map(`levels<-`, out[names(lvls)], lvls)
    

    e você verá que os níveis são redefinidos para os níveis desejados

    > str(out)
    tibble [2 × 9] (S3: tbl_df/tbl/data.frame)
     $ IDs : chr [1:2] "ID1" "ID2"
     $ gr  : chr [1:2] "gr1" "gr1"
     $ var : num [1:2] -3.45 -3.47
     $ col1: Factor w/ 3 levels "CC","CT","TT": 1 2
     $ col2: Factor w/ 3 levels "GG","GT","TT": 1 1
     $ col3: Factor w/ 3 levels "CC","CT","TT": 1 2
     $ col4: Factor w/ 3 levels "CC","CG","GG": 2 2
     $ col5: Factor w/ 3 levels "AA","AC","CC": 1 2
     $ col6: Factor w/ 3 levels "AA","AG","GG": 1 1
    
    • 3
  2. tmfmnk
    2024-01-15T22:43:45+08:002024-01-15T22:43:45+08:00

    Uma dplyrresposta para o primeiro problema:

    df.to.subset %>%
     filter((if_all(starts_with("col"), ~ . %in% my.list[[cur_column()]])))
    
      IDs   gr      var col1  col2  col3  col4  col5  col6 
      <chr> <chr> <dbl> <fct> <fct> <fct> <fct> <fct> <fct>
    1 ID1   gr1   -3.45 CC    GG    CC    CG    AC    GG   
    2 ID2   gr1   -3.47 CT    GG    CT    CG    CC    GG  
    

    Para incluir os níveis dos fatores:

    df.to.subset %>%
     filter((if_all(starts_with("col"), ~ . %in% my.list[[cur_column()]]))) %>%
     mutate(across(starts_with("col"), 
                   ~ factor(.,
                            levels = unlist(factor.levels.cols[factor.levels.cols[["cols"]] == cur_column(), -1]))))
    
    tibble [2 × 9] (S3: tbl_df/tbl/data.frame)
     $ IDs : chr [1:2] "ID1" "ID2"
     $ gr  : chr [1:2] "gr1" "gr1"
     $ var : num [1:2] -3.45 -3.47
     $ col1: Factor w/ 3 levels "CC","CT","TT": 1 2
     $ col2: Factor w/ 3 levels "GG","GT","TT": 1 1
     $ col3: Factor w/ 3 levels "CC","CT","TT": 1 2
     $ col4: Factor w/ 3 levels "CC","CG","GG": 2 2
     $ col5: Factor w/ 3 levels "AA","AC","CC": 2 3
     $ col6: Factor w/ 3 levels "AA","AG","GG": 3 3
    
    • 3
  3. jay.sf
    2024-01-16T02:17:11+08:002024-01-16T02:17:11+08:00

    Usando `%in%`in mapply, negue-o e subconjunto para zero rowSums.

    > df.to.subset[rowSums(!mapply(\(x, y) x %in% y, df.to.subset[names(my.list)], my.list)) == 0, ]
    # A tibble: 2 x 9
      IDs   gr      var col1  col2  col3  col4  col5  col6 
      <chr> <chr> <dbl> <fct> <fct> <fct> <fct> <fct> <fct>
    1 ID1   gr1   -3.45 CC    GG    CC    CG    AC    GG   
    2 ID2   gr1   -3.47 CT    GG    CT    CG    CC    GG   
    

    Dados:

    > my.list |> dput()
    list(col1 = c("CC", "CT", "TT"), col2 = c("GG", "GT"), col3 = c("CC", 
    "CT"), col4 = c("CC", "CG", "GG"), col5 = c("AC", "CC"), col6 = "GG")
    > df.to.subset |> dput()
    structure(list(IDs = c("ID1", "ID2", "ID3", "ID4", "ID5", "ID6"
    ), gr = c("gr1", "gr1", "gr1", "gr1", "gr1", "gr1"), var = c(-3.451, 
    -3.469, -3.837, -3.344, -3.904, -3.943), col1 = structure(c(1L, 
    2L, 3L, 1L, 2L, 2L), levels = c("CC", "CT", "TT"), class = "factor"), 
        col2 = structure(c(1L, 1L, 2L, 3L, 3L, 3L), levels = c("GG", 
        "GT", "TT"), class = "factor"), col3 = structure(c(1L, 2L, 
        1L, 1L, 1L, 1L), levels = c("CC", "CT"), class = "factor"), 
        col4 = structure(c(2L, 2L, 2L, 2L, 2L, 2L), levels = c("CC", 
        "CG", "GG"), class = "factor"), col5 = structure(c(1L, 2L, 
        2L, 2L, 2L, 2L), levels = c("AC", "CC"), class = "factor"), 
        col6 = structure(c(1L, 1L, 2L, 1L, 1L, 1L), levels = c("GG", 
        "AA"), class = "factor")), row.names = c(NA, -6L), class = c("tbl_df", 
    "tbl", "data.frame"))
    
    • 1

relate perguntas

  • Adicionar número de série para atividade de cópia ao blob

  • A fonte dinâmica do empacotador duplica artefatos

  • Selecione linhas por grupo com 1s consecutivos

  • Lista de chamada de API de gráfico subscritoSkus estados Privilégios insuficientes enquanto os privilégios são concedidos

  • Função para criar DFs separados com base no valor da coluna

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

    • 1 respostas
  • Marko Smith

    Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

    • 1 respostas
  • Marko Smith

    Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

    • 1 respostas
  • Marko Smith

    Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

    • 6 respostas
  • Marko Smith

    `(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

    • 3 respostas
  • Marko Smith

    Quando devo usar um std::inplace_vector em vez de um std::vector?

    • 3 respostas
  • Marko Smith

    Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

    • 1 respostas
  • Marko Smith

    PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

    • 2 respostas
  • Marko Smith

    AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

    • 1 respostas
  • Marko Smith

    Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

    • 1 respostas
  • Martin Hope
    Aleksandr Dubinsky Por que a correspondência de padrões com o switch no InetAddress falha com 'não cobre todos os valores de entrada possíveis'? 2024-12-23 06:56:21 +0800 CST
  • Martin Hope
    Phillip Borge Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle? 2024-12-12 20:46:46 +0800 CST
  • Martin Hope
    Oodini Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores? 2024-12-12 06:27:11 +0800 CST
  • Martin Hope
    sleeptightAnsiC `(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso? 2024-11-09 07:18:53 +0800 CST
  • Martin Hope
    The Mad Gamer Quando devo usar um std::inplace_vector em vez de um std::vector? 2024-10-29 23:01:00 +0800 CST
  • Martin Hope
    Chad Feller O ponto e vírgula agora é opcional em condicionais bash com [[ .. ]] na versão 5.2? 2024-10-21 05:50:33 +0800 CST
  • Martin Hope
    Wrench Por que um traço duplo (--) faz com que esta cláusula MariaDB seja avaliada como verdadeira? 2024-05-05 13:37:20 +0800 CST
  • Martin Hope
    Waket Zheng Por que `dict(id=1, **{'id': 2})` às vezes gera `KeyError: 'id'` em vez de um TypeError? 2024-05-04 14:19:19 +0800 CST
  • Martin Hope
    user924 AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos 2024-03-20 03:12:31 +0800 CST
  • Martin Hope
    MarkB Por que o GCC gera código que executa condicionalmente uma implementação SIMD? 2024-02-17 06:17:14 +0800 CST

Hot tag

python javascript c++ c# java typescript sql reactjs html

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve