Adicionar número de série para atividade de cópia ao blob

Question

denis

Asked: 2024-01-13 22:51:56 +0800 CST2024-01-13 22:51:56 +0800 CST 2024-01-13 22:51:56 +0800 CST

Conte e calcule as diferenças da primeira linha e das linhas anteriores após o agrupamento, mas ignorando os valores de texto/caractere em r

772

A partir dos seguintes dados agrupados por ide visit, que incluem uma mistura de numérico e texto/caractere values, como criar essas 3 novas colunas:

count_wotxt: contar por ide visitmas sem considerar valores de texto/caractere
diff_value_first: calcule a diferença entre cada valor numérico versus o primeiro visitde cada id, ignorando texto/caracterevalues
diff_value_previous: calcula a diferença entre cada valor numérico em relação ao anterior visitpara cada um id, ignorando texto/caracterevalues

Dados:

dat <-  
structure(list(id = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 
2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("1", "2"), class = "factor"), 
    visit = structure(c(1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 1L, 1L, 
    1L, 1L, 2L, 2L, 2L), .Label = c("1", "2"), class = "factor"), 
    value = c("5", "7", "10", "20", "15", "text0", "25", "text1", 
    "100", "text2", "text3", "120", "text4", "50", "45"), count = c(1L, 
    2L, 3L, 1L, 2L, 3L, 4L, 5L, 1L, 2L, 3L, 4L, 1L, 2L, 3L)), class = "data.frame", row.names = c(NA, 
-15L))

Saída desejada:

> dat2
   id visit value count count_wotxt diff_value_first diff_value_previous
1   1     1     5     1           1                0                   0
2   1     1     7     2           2                2                   2
3   1     1    10     3           3                5                   3
4   1     2    20     1           1                0                   0
5   1     2    15     2           2               -5                  -5
6   1     2 text0     3          NA               NA                  NA
7   1     2    25     4           3                5                  10
8   1     2 text1     5          NA               NA                  NA
9   2     1   100     1           1                0                   0
10  2     1 text2     2          NA               NA                  NA
11  2     1 text3     3          NA               NA                  NA
12  2     1   120     4           2               20                  20
13  2     2 text4     1          NA               NA                  NA
14  2     2    50     2           1               NA                   0
15  2     2    45     3           2               NA                  -5

Obrigado pela ajuda

2 respostas

Voted

TarJae · Answer 1 · 2024-01-13T23:52:00+08:00

Aqui está uma lógica que poderíamos aplicar para obter o resultado desejado: acho que a parte mais desafiadora é a diferença da linha anterior na presença de NAs. Eu resolvi isso usando fill:

library(dplyr)
library(tidyr)

dat %>% 
  group_by(id, visit) %>% 
  mutate(count_wotxt = ifelse(grepl("^[0-9]+$", value), cumsum(grepl("^[0-9]+$", value)), NA),
         value_numeric = as.numeric(as.character(value)),
         diff_value_first = value_numeric - value_numeric[1]) %>% 
  fill(value_numeric, .direction = "down") %>% 
  mutate(diff_value_previous = value_numeric - lag(value_numeric, default = first(value_numeric)), .keep="unused") %>% 
  ungroup()

# A tibble: 15 × 7
   id    visit value count count_wotxt diff_value_first diff_value_previous
   <fct> <fct> <chr> <int>       <int>            <dbl>               <dbl>
 1 1     1     5         1           1                0                   0
 2 1     1     7         2           2                2                   2
 3 1     1     10        3           3                5                   3
 4 1     2     20        1           1                0                   0
 5 1     2     15        2           2               -5                  -5
 6 1     2     text0     3          NA               NA                   0
 7 1     2     25        4           3                5                  10
 8 1     2     text1     5          NA               NA                   0
 9 2     1     100       1           1                0                   0
10 2     1     text2     2          NA               NA                   0
11 2     1     text3     3          NA               NA                   0
12 2     1     120       4           2               20                  20
13 2     2     text4     1          NA               NA                  NA
14 2     2     50        2           1               NA                  NA
15 2     2     45        3           2               NA                  -5
Warning message:
There were 3 warnings in `mutate()`.
The first warning was:
ℹ In argument: `value_numeric = as.numeric(as.character(value))`.
ℹ In group 2: `id = 1`, `visit = 2`.
Caused by warning:
! NAs introduced by coercion
ℹ Run dplyr::last_dplyr_warnings() to see the 2 remaining warnings.

denis · Answer 2 · 2024-01-14T01:07:22+08:00

Abaixo, a solução, baseada principalmente na proposta de TarJae (obrigado!), ligeiramente modificada no final,

dat %>%
  group_by(id, visit) %>%
  mutate(
    count_wotxt = ifelse(grepl("^[0-9]+$", value), cumsum(grepl("^[0-9]+$", value)), NA),
         value_numeric = as.numeric(as.character(value)),
         diff_value_first = value_numeric - value_numeric[1]) %>%
  fill(value_numeric, .direction = "down") %>%
  mutate(diff_value_previous =
           case_when(is.na(count_wotxt) ~ NA,
                     count_wotxt == 1 ~ 0,
                     TRUE ~ (value_numeric - lag(value_numeric, default = first(value_numeric))))) %>%
  ungroup() %>%
  select(-value_numeric)

que dá

> dat
# A tibble: 15 x 7
   id    visit value count count_wotxt diff_value_first diff_value_previous
   <fct> <fct> <chr> <int>       <int>            <dbl>               <dbl>
 1 1     1     5         1           1                0                   0
 2 1     1     7         2           2                2                   2
 3 1     1     10        3           3                5                   3
 4 1     2     20        1           1                0                   0
 5 1     2     15        2           2               -5                  -5
 6 1     2     text0     3          NA               NA                  NA
 7 1     2     25        4           3                5                  10
 8 1     2     text1     5          NA               NA                  NA
 9 2     1     100       1           1                0                   0
10 2     1     text2     2          NA               NA                  NA
11 2     1     text3     3          NA               NA                  NA
12 2     1     120       4           2               20                  20
13 2     2     text4     1          NA               NA                  NA
14 2     2     50        2           1               NA                   0
15 2     2     45        3           2               NA                  -5

Conte e calcule as diferenças da primeira linha e das linhas anteriores após o agrupamento, mas ignorando os valores de texto/caractere em r

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Conte e calcule as diferenças da primeira linha e das linhas anteriores após o agrupamento, mas ignorando os valores de texto/caractere em r

2 respostas

relate perguntas