zhang提出的问题 -coding

zhang

Asked: 2024-11-20 20:19:01 +0800 CST

Como percorrer o nó interno hclust em R

8

Considere que temos esse quadro de dados para agrupamento.

# df
dput(df)
structure(c(1L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 1L, 0L, 
0L, 0L, 0L, 0L, 0L, 1L, 1L, 1L, 1L, 0L, 0L, 0L, 0L, 0L, 1L, 1L, 
1L, 1L, 1L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 1L, 0L, 0L, 0L, 0L, 
0L, 1L, 0L, 1L, 1L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 1L, 0L, 
0L, 0L, 0L, 0L, 0L, 0L, 0L, 1L, 1L, 1L, 1L, 0L, 0L, 0L, 0L, 0L, 
1L, 1L, 1L, 1L, 0L, 0L, 0L, 0L, 0L, 0L, 1L, 1L, 1L, 0L, 0L, 0L, 
0L, 0L, 0L, 0L, 1L, 1L), dim = c(9L, 11L), dimnames = list(c("1", 
"2", "3", "4", "5", "6", "7", "8", "9"), c("C", "D", "E", "F", 
"G", "H", "K", "L", "M", "N", "P")))

dist_matrix <- dist(df, method = "manhattan")
clust <- hclust(dist_matrix, method = "complete")
plot(clust)

Podemos obter os seguintes resultados de agrupamento, onde as letras itálicas são marcadores adicionais.

Permita-me usar pseudocódigo para ilustrar a função que desejo implementar.

obter o nó esquerdo e o nó direito de um nó específico.

FUNC GET_RIGHT_NODE(D)
RETUEN E,F,G
FUNC GET_LEFT_NODE(ROOT)
RETUEN A,B,C

obter elemento folha de nó específico

FUNC GET_LEAF(D)
RETURN 5,3,1,2,4

Tópico relacionado:

R: ajuda a analisar o conteúdo do cluster em clustering hierárquico

Como você imprime as linhas de um objeto hclust em R?

Algoritmo de agrupamento hierárquico de vizinhos mais próximos em R

zhang

Asked: 2024-08-12 22:11:00 +0800 CST

Transformando um data.table em R e atribuindo pontuações com base nas posições inicial e final

5

Tenho um data.tabledf em R com quatro colunas: id, start, end, score. O início e o fim variam de 1 a 10 e o id pode ter duplicatas. Gostaria de transformar esse data.table em uma nova matriz B onde cada linha corresponde a um id, e possui 10 colunas correspondentes a cada posição de 1 a 10. Se uma posição estiver dentro do início e fim no df para um determinado id , a célula correspondente em B deverá ser a pontuação, caso contrário deverá ser 0.

por exemplo:

library(data.table)
df <- data.table(id = c(1, 1, 2), start = c(1, 5, 1), end = c(3, 7, 2), score = c(10, 20, 30))

df
  id start end score
1  1     1   3    10
2  1     5   7    20
3  2     1   2    30

Resultado esperado:

id  1   2   3   4   5   6   7   8   9   10
1   10  10  10  0   20  20  20  0   0   0
2   30  30  0   0   0   0   0   0   0   0

zhang

Asked: 2024-05-29 15:40:04 +0800 CST

Substituir o método de subconjunto em R para uma classe específica interfere em outros objetos

6

Estou trabalhando com R e criei um novo subsetmétodo para objetos da classe new_object. Aqui está minha função:

setGeneric('subset', function(x, i) standardGeneric('subset'))
setMethod('subset', 'new_object', function(x, i) { 
    # ... my code ...
    # subset new_object

})

Isso funciona perfeitamente para new_object. No entanto, parece interferir na operação de subconjuntos de outros objetos, como seuratobjetos. Recebo um erro quando tento criar um subconjunto de um objeto seurat depois de carregar meu novo método de subconjunto.

The inheritance method for the 'subset' function with the 'Seurat' tag could not be found.

Gostaria que o método de subconjunto funcionasse normalmente para todos os outros tipos de objetos, exceto para new_object, para os quais desejo usar meu novo método de subconjunto.

Como posso definir um novo método de subconjunto para uma classe específica sem afetar outros objetos em R?

zhang

Asked: 2024-05-25 19:18:26 +0800 CST

Como dividir vários campos em um data.table e expandir as linhas correspondentemente em R? [duplicado]

7

Estou trabalhando com um data.tableR onde vários campos podem conter vários valores separados por ponto e vírgula. Estou tentando separar esses valores em linhas individuais, com cada valor correspondendo a uma nova linha da tabela. Contudo, o desafio é que os campos separados estão relacionados e precisam ser divididos e expandidos de forma correspondente.

dados de exemplo:

library(data.table)
df <- data.table(probe = c('A', 'B', 'C'), # there are many columns in real data
                 gene = c('geneA', 'geneB;geneC', 'geneD;geneH;geneI;geneO'), 
                 type = c('mRNA', 'mRNA;miRNA', 'mRNA;miRNA;mRNA;miRNA'))

df
    probe                    gene                  type
1:      A                   geneA                  mRNA
2:      B             geneB;geneC            mRNA;miRNA
3:      C geneD;geneH;geneI;geneO mRNA;miRNA;mRNA;miRNA

resultado esperado:

df.new <- data.table(probe = c('A', 'B', 'B', 'C', 'C', 'C', 'C'), 
                     gene = c('geneA', 'geneB', 'geneC', 'geneD', 'geneH', 'geneI', 'geneO'), 
                     type = c('mRNA', 'mRNA', 'miRNA', 'mRNA', 'miRNA', 'mRNA', 'miRNA'))

df.new
    probe   gene   type
1:      A  geneA   mRNA
2:      B  geneB   mRNA
3:      B  geneC  miRNA
4:      C  geneD   mRNA
5:      C  geneH  miRNA
6:      C  geneI   mRNA
7:      C  geneO  miRNA

Obrigado por suas sugestões gentis

zhang

Asked: 2024-04-20 16:35:43 +0800 CST

Adicionando marcadores de significância para comparações de grupos em um boxplot usando ggplot2

5

Eu tenho dados como o seguinte:

set.seed(123)
expr_data <- data.frame(
    cell_line_name = rep(c("CL1", "CL2"), each = 50),
    GSE_id = rep(c("GSE1", "GSE2"), each = 50),
    model = rep(c("M1", "M2"), each = 50),
    expr = rnorm(100),
    age_group = sample(c('A', 'B'), 100, replace = TRUE)
)

    cell_line_name GSE_id model        expr age_group
1              CL1   GSE1    M1 -0.34391723         B
2              CL1   GSE1    M1  0.09049665         A
3              CL1   GSE1    M1  1.59850877         A
4              CL1   GSE1    M1 -0.08856511         A
5              CL1   GSE1    M1  1.08079950         B
6              CL1   GSE1    M1  0.63075412         B
7              CL1   GSE1    M1 -0.11363990         A
8              CL1   GSE1    M1 -1.53290200         B
9              CL1   GSE1    M1 -0.52111732         A
10             CL1   GSE1    M1 -0.48987045         B
11             CL1   GSE1    M1  0.04715443         A

Eu o que polt um boxplot com cell_line_name, GSE_id, e modelar como eixo x, expr como eixo y, e mostrar a comparação entre o grupo A e B

ggplot(expr_data.gene, aes(x = paste0(cell_line_name, '_', GSE_id, '_', model), y = expr, color = age_group)) + 
    geom_boxplot() + 
    geom_point(position = position_jitterdodge(), alpha = 0.5)

Também o que adicionar rótulo significativo para cada comparação no valor x, tentei ggsignife ggpubr, mas não funcionou.

ggplot(expr_data.gene, aes(x = paste0(cell_line_name, '_', GSE_id, '_', model), y = expr, color = age_group)) + 
    geom_boxplot() + 
    geom_point(position = position_jitterdodge(), alpha = 0.5) + 
    ggpubr::stat_compare_means(comparisons = list(c("A", "B")))

resultado esperado:

zhang

Asked: 2023-12-23 16:20:40 +0800 CST

Como alterar a cor de fundo do painel com base em rótulos discretos do eixo y no ggplot2 em R?

9

Tenho um dataframe nomeado plot_dfem R com a seguinte estrutura:

# Import the library
library(ggplot2)

# Create a sample data
set.seed(123)
plot_df <- data.frame(gene = rep(paste0("ENSG", 1:10, ".17"), each = 2),
                      mean = rnorm(20, 0.5, 0.1),
                      sd = rnorm(20, 0.02, 0.01),
                      group = rep(c("group_a", "group_b"), 10))

Estou tentando criar um ggplot com pontos e barras de erro, onde o eixo y representa os nomes dos genes (como rótulos discretos), o eixo x representa os valores médios e a cor representa o grupo (ou "group_a" ou " grupo_b"). Aqui está o código que estou usando:

ggplot(plot_df, aes(y=gene)) + 
    geom_point(aes(x=mean, color = group), position = position_dodge(width=0.9)) + 
    geom_errorbar(aes(xmin=mean-sd, xmax=mean+sd, color = group), width=.2,
                 position=position_dodge(.9)) + 
    geom_vline(aes(xintercept=0.5), linetype=2, color = 'gray') + 
    theme_bw() + 
    theme(panel.background = element_blank(),
          panel.grid.major = element_blank(), 
          panel.grid.minor = element_blank())

No entanto, quero alterar a cor de fundo do painel com base nos nomes dos genes no eixo y (cada gene tem uma cor diferente ou os genes vizinhos não têm a mesma cor). Como meus rótulos do eixo y são discretos, não sei como conseguir isso. Qualquer ajuda seria apreciada. Obrigado!

Eu tentei:

Altere a cor de fundo entre dia e noite no ggplot2 em R

Como percorrer o nó interno hclust em R

Transformando um data.table em R e atribuindo pontuações com base nas posições inicial e final

Substituir o método de subconjunto em R para uma classe específica interfere em outros objetos

Como dividir vários campos em um data.table e expandir as linhas correspondentemente em R? [duplicado]

Adicionando marcadores de significância para comparações de grupos em um boxplot usando ggplot2

Como alterar a cor de fundo do painel com base em rótulos discretos do eixo y no ggplot2 em R?

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

zhang's questions