Adicionar número de série para atividade de cópia ao blob

Question

chill

Asked: 2025-01-19 05:34:26 +0800 CST2025-01-19 05:34:26 +0800 CST 2025-01-19 05:34:26 +0800 CST

Como posso calcular a distribuição cumulativa dentro de grupos (como faz o cume_dist), mas separar valores vinculados em R?

772

Aqui está um conjunto de dados onde ANO é uma variável de agrupamento.

dat <- data.frame(YEAR = c(rep(1999,4),rep(2002,3)), VALUE = c(1,2,3,2,1,2,3))

Gostaria de adicionar uma coluna que analisa a coluna VALUE e diz "onde, dentro do ano, esse valor fica?" Estou com dificuldade para expressar isso de forma concisa, mas é praticamente o que cume_dist faz, exceto que cume_dist agrupa valores vinculados e eu os quero separados. cume_dist pega 1,2,2,3 e retorna 0,25, 0,75, 0,75, 1,00 e preciso que os vínculos sejam separados: 1,2,2,4 deve retornar 0,25, 0,50, 0,75, 1,0.

Aqui está uma linha baseada em cume_dist que funciona, exceto para os valores empatados:

dat %>% group_by(YEAR) %>% mutate(cumdist = cume_dist(VALUE))

Tentei desconstruir cume_dist (que é a classificação no grupo dividida pelo tamanho do grupo) e usar row_number, que separa empates, para o numerador e dividi-lo pelo número de linhas em cada ano. Isso me dá o numerador correto:

dat %>% group_by(YEAR) %>% mutate(rownumber = row_number(VALUE))

Mas como faço para dividir essas classificações pelo número de valores em cada ano (ou seja, dividir todas as classificações de 1999 por 4 e as classificações de 2002 por 3)?

2 respostas

Voted

ThomasIsCoding · Answer 1 · 2025-01-19T05:53:35+08:00

Best Answer

ThomasIsCoding

2025-01-19T05:53:35+08:002025-01-19T05:53:35+08:00

É isso que você procura?

dat %>%
  mutate(cumdist = seq.int(n())[order(VALUE)] / n(), .by = YEAR)

o que dá

  YEAR VALUE   cumdist
1 1999     1 0.2500000
2 1999     2 0.5000000
3 1999     3 1.0000000
4 1999     2 0.7500000
5 2002     1 0.3333333
6 2002     2 0.6666667
7 2002     3 1.0000000

3

jay.sf · Answer 2 · 2025-01-19T19:52:16+08:00

jay.sf

2025-01-19T19:52:16+08:002025-01-19T19:52:16+08:00

Usando frank()emdata.table

> library(data.table)
> setDT(dat)
> dat[, cumdist := frank(VALUE, ties.method="first")/.N, by=YEAR]
> dat
    YEAR VALUE   cumdist
   <num> <num>     <num>
1:  1999     1 0.2500000
2:  1999     2 0.5000000
3:  1999     3 1.0000000
4:  1999     2 0.7500000
5:  2002     1 0.3333333
6:  2002     2 0.6666667
7:  2002     3 1.0000000

Ou método base, já mencionado nos comentários .

> dat |> 
+   transform(cumdist=ave(VALUE, YEAR, FUN=\(x) rank(x, ties='first')/length(x)))
    YEAR VALUE   cumdist
   <num> <num>     <num>
1:  1999     1 0.2500000
2:  1999     2 0.5000000
3:  1999     3 1.0000000
4:  1999     2 0.7500000
5:  2002     1 0.3333333
6:  2002     2 0.6666667
7:  2002     3 1.0000000

2

Como posso calcular a distribuição cumulativa dentro de grupos (como faz o cume_dist), mas separar valores vinculados em R?

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Como posso calcular a distribuição cumulativa dentro de grupos (como faz o cume_dist), mas separar valores vinculados em R?

2 respostas

relate perguntas