Adicionar número de série para atividade de cópia ao blob

Question

DudeBro231

Asked: 2025-04-21 22:03:55 +0800 CST2025-04-21 22:03:55 +0800 CST 2025-04-21 22:03:55 +0800 CST

Excluir coluna em sapply(dat_clean, FUN = function(x){x / sum(x)}) em R

772

Estou trabalhando em um trecho de código R para calcular a diversidade em um conjunto de dados de taxonomias de fungos. O tutorial que estou seguindo tem um trecho de código que soma cada linha, o que não está funcionando porque a primeira coluna (que exibe os números da OTU) não é numérica, mas sim de caracteres. Aqui está o trecho de código:

# make relative abundances
dat_relab = as.data.frame(sapply(dat_clean, FUN = function(x){x / sum(x)}))
rownames(dat_relab) = rownames(dat_clean)

# Remove low abundant ASVs, i.e. for which total relative abundance is lower than 0.01%
dat_relab$relab = rowSums(dat_relab) # adds column with total number of reads per ASV
keep01 = which(dat_relab$relab > 0.0001) # selects which ASVs fit the cut-off
dat_relab01 = dat_relab[keep01, -26] # outputs filtered table, and removes added column with number reads

# Select the ASVs with relative abundance higher than 0.01% from the ASV table with read number for the subsequent analysis
dat_clean2 = dat_clean[rownames(dat_relab01), colnames(dat_relab01)]

O código para na 2ª linha e fornece o seguinte erro: Erro em sum(x): 'tipo' (caractere) de argumento inválido

Eu entendo logicamente qual é o problema aqui; a primeira coluna dos dados não é numérica e não será somada. Meu problema é entender como corrigir isso e por que não está dando errado no tutorial (que tem os dados formatados da mesma forma).

2 respostas

Voted

Friede · Answer 1 · 2025-04-21T22:12:07+08:00

Ele soma cada coluna!

Eu entendo logicamente qual é o problema aqui; a primeira coluna dos dados não é numérica e não será somada. Meu problema é entender como consertar isso, [...]

Para alguns dados de brinquedos

dat_clean = data.frame(V1=letters[1:5], V2=1:5, V3=6:10)

sua tentativa

as.data.frame(sapply(dat_clean, FUN = function(x){x / sum(x)}))

problemas

Erro em sum(x): 'tipo' (caractere) de argumento inválido

o que é bastante informativo. Para evitar, podemos selecionar numericcolunas

i = sapply(dat_clean, is.numeric) 
dat_clean[i] = sapply(dat_clean[i], \(x) x / sum(x))

> # i is a named vector of Boolean (logical)
> i 
    V1    V2    V3 
 FALSE  TRUE  TRUE 
> # how the result looks 
> dat_clean 
  V1         V2    V3
1  a 0.06666667 0.150
2  b 0.13333333 0.175
3  c 0.20000000 0.200
4  d 0.26666667 0.225
5  e 0.33333333 0.250

Combinando com o tutorial.

i = sapply(dat_clean, is.numeric)
dat_relab = as.data.frame(sapply(dat_clean[i], FUN = function(x){x / sum(x)}))

--ou qualquer um dos dois--

# (1)
X = as.data.frame(dat_clean[i] / lapply(dat_clean[i], sum))
# (2)
Y = dat_clean[i] / lapply(dat_clean[i], sum)
# (3)
Z = Filter(is.numeric, dat_clean)
Z = Z / lapply(Z, sum)

> Vectorize(identical, 'x')(list(X, Y, Z), dat_relab)
[1] TRUE TRUE TRUE

[...] e por que não está dando errado no tutorial (que tem dados formatados da mesma maneira).

É difícil dizer isso sem ver o "tutorial".

score 1 · Answer 2 · 2025-04-21T22:59:52+08:00

Antes de chamar rowSums, basta selecionar as colunas numéricas.

Usando os dados de exemplo de @Friede,

dat_clean <- data.frame(V1=letters[1:5], V2=1:5, V3=6:10)
rowSums(dat_clean)
# Error in rowSums(dat_clean) : 'x' must be numeric
rowSums(dat_clean[, sapply(dat_clean, is.numeric)])
# [1]  7  9 11 13 15

Você pode capturar isso em uma nova coluna, conforme necessário.

Isso pressupõe que qualquer coisa numericdeve ser incluída nas somas das linhas. Se você tiver colunas numéricas que não devem ser incluídas, uma etapa comum é usar índices inteiros (por exemplo, dat_clean[, 2:3]), mas isso pode levar à reorganização das colunas e ao esquecimento de atualizar os índices.

Em vez disso, podemos seguir mais um ou dois passos para evitar alguns nomes de colunas:

# add numeric columns I don't want to row-sum
dat_clean$V4 <- 100:104
dat_clean[, setdiff(names(which(sapply(dat_clean, is.numeric))), "V4")]
#   V2 V3
# 1  1  6
# 2  2  7
# 3  3  8
# 4  4  9
# 5  5 10

### incorrectly including $V4
rowSums(dat_clean[, sapply(dat_clean, is.numeric)])
# [1] 107 110 113 116 119

### correctly excludes $V4
rowSums(dat_clean[, setdiff(names(which(sapply(dat_clean, is.numeric))), "V4")])
# [1]  7  9 11 13 15

Excluir coluna em sapply(dat_clean, FUN = function(x){x / sum(x)}) em R

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Excluir coluna em sapply(dat_clean, FUN = function(x){x / sum(x)}) em R

2 respostas

relate perguntas