Adicionar número de série para atividade de cópia ao blob

Question

Kenn

Asked: 2023-12-22 02:06:33 +0800 CST2023-12-22 02:06:33 +0800 CST 2023-12-22 02:06:33 +0800 CST

Divida o dataframe em vários dataframes agrupando colunas

772

Eu tenho um dataframe de dados de expressão onde os genes são linhas e as colunas são amostras. Também tenho um dataframe contendo metadados para cada amostra no dataframe da expressão. Na realidade, meu dataframe expr tem mais de 30.000 linhas e mais de 100 colunas. No entanto, abaixo está um exemplo com dados menores.

expr <- data.frame(sample1 = c(1,2,2,0,0), 
                   sample2 = c(5,2,4,4,0), 
                   sample3 = c(1,2,1,0,1), 
                   sample4 = c(6,5,6,6,7), 
                   sample5 = c(0,0,0,1,1))
rownames(expr) <- paste0("gene",1:5)
meta <- data.frame(sample = paste0("sample",1:5),
                   treatment = c("control","control",
                                 "treatment1", 
                                 "treatment2", "treatment2"))

Quero encontrar a média de cada gene por tratamento. Dos exemplos que vi com split() ou group_by() agrupar pessoas com base em uma coluna já presente no data.frame. No entanto, tenho um dataframe separado (meta) que classifica o agrupamento das colunas em outro dataframe (expr).

Gostaria que minha saída fosse um dataframe com genes como linhas, tratamento como colunas e valores como média.

#        control   treatment1   treatment2
#  gene1  mean        mean         mean
#  gene2  mean        mean         mean

5 respostas

Voted

Friede · Answer 1 · 2023-12-22T02:45:11+08:00

Uma abordagem na base R que funciona para o exemplo específico de dados de brinquedos fornecido:

colnames(expr) = paste0(colnames(expr), "_", 
                        meta$treatment[match(colnames(expr), meta$sample)])
vapply(unique(meta$treatment), 
       \(i) rowMeans(expr[grepl(i, colnames(expr))]), numeric(nrow(expr)))
#>       control treatment1 treatment2
#> gene1       3          1        3.0
#> gene2       2          2        2.5
#> gene3       3          1        3.0
#> gene4       2          0        3.5
#> gene5       0          1        4.0

Dados

expr <- data.frame(sample1 = c(1,2,2,0,0), 
                   sample2 = c(5,2,4,4,0), 
                   sample3 = c(1,2,1,0,1), 
                   sample4 = c(6,5,6,6,7), 
                   sample5 = c(0,0,0,1,1))
rownames(expr) <- paste0("gene",1:5)

meta <- data.frame(sample = paste0("sample",1:5),
                   treatment = c("control","control",
                                 "treatment1", 
                                 "treatment2", "treatment2"))

Gregor Thomas · Answer 2 · 2023-12-22T02:17:03+08:00

Best Answer

Gregor Thomas

2023-12-22T02:17:03+08:002023-12-22T02:17:03+08:00

Algo assim. Não está totalmente claro o que você deseja agrupar na última etapa, mas você pode ajustar isso facilmente.

library(dplyr)
library(tidyr)

expr |>
  mutate(gene = row.names(expr)) |>
  pivot_longer(-gene, names_to = "sample") |>
  left_join(meta, by = "sample") |>
  summarize(mean = mean(value), .by = c(gene, treatment)) |> 
  pivot_wider(names_from = treatment, values_from = mean)
# # A tibble: 5 × 4
#   gene  control treatment1 treatment2
#   <chr>   <dbl>      <dbl>      <dbl>
# 1 gene1       3          1        3  
# 2 gene2       2          2        2.5
# 3 gene3       3          1        3  
# 4 gene4       2          0        3.5
# 5 gene5       0          1        4

2

score 2 · Answer 3 · 2023-12-22T03:34:56+08:00

2023-12-22T03:34:56+08:002023-12-22T03:34:56+08:00

Uma abordagem base R:

expr|>
    split.default(with(meta, treatment[match(names(expr), sample)]))|>
    lapply(rowMeans)|>
    structure(dim=3)|>
    array2DF()

        Var1 gene1 gene2 gene3 gene4 gene5
1    control     3   2.0     3   2.0     0
2 treatment1     1   2.0     1   0.0     1
3 treatment2     3   2.5     3   3.5     4

2

TarJae · Answer 4 · 2023-12-22T03:16:12+08:00

TarJae

2023-12-22T03:16:12+08:002023-12-22T03:16:12+08:00

Aqui está uma data.tableabordagem com a mesma lógica fornecida por @Gregor Thomas:

library(data.table)

expr_dt <- setDT(expr)
expr_dt[, gene := rownames(expr)]

meta_dt <- setDT(meta)

melt(expr_dt, id.vars = "gene", variable.name = "sample", value.name = "expression")[
  meta_dt, on = .(sample)][
    , .(mean = mean(expression)), by = .(gene, treatment)][
      , dcast(.SD, gene ~ treatment, value.var = "mean")]

   gene control treatment1 treatment2
1:    1       3          1        3.0
2:    2       2          2        2.5
3:    3       3          1        3.0
4:    4       2          0        3.5
5:    5       0          1        4.0

1

M-- · Answer 5 · 2023-12-22T04:08:10+08:00

M--

2023-12-22T04:08:10+08:002023-12-22T04:08:10+08:00

Aqui está outra abordagem tidyverse, substituindo números de amostra por tratamentos, metacriando um vetor nomeado em vez de left_join()e também usando values_fninside pivot_wider()em vez de summarise():

library(dplyr)
library(tidyr)

expr %>% 
  tibble::rownames_to_column("gene") %>% 
  pivot_longer(-gene) %>% 
  mutate(name = split(meta$treatment, meta$sample)[name]) %>%  %>% 
  pivot_wider(values_fn = mean)

#> # A tibble: 5 × 4
#>   gene  control treatment1 treatment2
#>   <chr>   <dbl>      <dbl>      <dbl>
#> 1 gene1       3          1        3  
#> 2 gene2       2          2        2.5
#> 3 gene3       3          1        3  
#> 4 gene4       2          0        3.5
#> 5 gene5       0          1        4

^{Criado em 21/12/2023 com reprex v2.0.2}

0

Divida o dataframe em vários dataframes agrupando colunas

destaque o código em HTML usando <font color="#xxx">

Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}?

Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)?

Por que as compreensões de lista criam uma função internamente?

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)?

Por que o construtor de uma variável global não é chamado em uma biblioteca?

Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto?

Somente operações bit a bit para std::byte em C++ 17?

Divida o dataframe em vários dataframes agrupando colunas

5 respostas

relate perguntas