AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / coding / Perguntas / 77811856
Accepted
denis
denis
Asked: 2024-01-13 22:51:56 +0800 CST2024-01-13 22:51:56 +0800 CST 2024-01-13 22:51:56 +0800 CST

Conte e calcule as diferenças da primeira linha e das linhas anteriores após o agrupamento, mas ignorando os valores de texto/caractere em r

  • 772

A partir dos seguintes dados agrupados por ide visit, que incluem uma mistura de numérico e texto/caractere values, como criar essas 3 novas colunas:

  • count_wotxt: contar por ide visitmas sem considerar valores de texto/caractere
  • diff_value_first: calcule a diferença entre cada valor numérico versus o primeiro visitde cada id, ignorando texto/caracterevalues
  • diff_value_previous: calcula a diferença entre cada valor numérico em relação ao anterior visitpara cada um id, ignorando texto/caracterevalues

Dados:

dat <-  
structure(list(id = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 
2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("1", "2"), class = "factor"), 
    visit = structure(c(1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 1L, 1L, 
    1L, 1L, 2L, 2L, 2L), .Label = c("1", "2"), class = "factor"), 
    value = c("5", "7", "10", "20", "15", "text0", "25", "text1", 
    "100", "text2", "text3", "120", "text4", "50", "45"), count = c(1L, 
    2L, 3L, 1L, 2L, 3L, 4L, 5L, 1L, 2L, 3L, 4L, 1L, 2L, 3L)), class = "data.frame", row.names = c(NA, 
-15L)) 

Saída desejada:

> dat2
   id visit value count count_wotxt diff_value_first diff_value_previous
1   1     1     5     1           1                0                   0
2   1     1     7     2           2                2                   2
3   1     1    10     3           3                5                   3
4   1     2    20     1           1                0                   0
5   1     2    15     2           2               -5                  -5
6   1     2 text0     3          NA               NA                  NA
7   1     2    25     4           3                5                  10
8   1     2 text1     5          NA               NA                  NA
9   2     1   100     1           1                0                   0
10  2     1 text2     2          NA               NA                  NA
11  2     1 text3     3          NA               NA                  NA
12  2     1   120     4           2               20                  20
13  2     2 text4     1          NA               NA                  NA
14  2     2    50     2           1               NA                   0
15  2     2    45     3           2               NA                  -5 

Obrigado pela ajuda

  • 2 2 respostas
  • 66 Views

2 respostas

  • Voted
  1. Best Answer
    TarJae
    2024-01-13T23:52:00+08:002024-01-13T23:52:00+08:00

    Aqui está uma lógica que poderíamos aplicar para obter o resultado desejado: acho que a parte mais desafiadora é a diferença da linha anterior na presença de NAs. Eu resolvi isso usando fill:

    library(dplyr)
    library(tidyr)
    
    dat %>% 
      group_by(id, visit) %>% 
      mutate(count_wotxt = ifelse(grepl("^[0-9]+$", value), cumsum(grepl("^[0-9]+$", value)), NA),
             value_numeric = as.numeric(as.character(value)),
             diff_value_first = value_numeric - value_numeric[1]) %>% 
      fill(value_numeric, .direction = "down") %>% 
      mutate(diff_value_previous = value_numeric - lag(value_numeric, default = first(value_numeric)), .keep="unused") %>% 
      ungroup()
    
    # A tibble: 15 × 7
       id    visit value count count_wotxt diff_value_first diff_value_previous
       <fct> <fct> <chr> <int>       <int>            <dbl>               <dbl>
     1 1     1     5         1           1                0                   0
     2 1     1     7         2           2                2                   2
     3 1     1     10        3           3                5                   3
     4 1     2     20        1           1                0                   0
     5 1     2     15        2           2               -5                  -5
     6 1     2     text0     3          NA               NA                   0
     7 1     2     25        4           3                5                  10
     8 1     2     text1     5          NA               NA                   0
     9 2     1     100       1           1                0                   0
    10 2     1     text2     2          NA               NA                   0
    11 2     1     text3     3          NA               NA                   0
    12 2     1     120       4           2               20                  20
    13 2     2     text4     1          NA               NA                  NA
    14 2     2     50        2           1               NA                  NA
    15 2     2     45        3           2               NA                  -5
    Warning message:
    There were 3 warnings in `mutate()`.
    The first warning was:
    ℹ In argument: `value_numeric = as.numeric(as.character(value))`.
    ℹ In group 2: `id = 1`, `visit = 2`.
    Caused by warning:
    ! NAs introduced by coercion
    ℹ Run dplyr::last_dplyr_warnings() to see the 2 remaining warnings. 
    
    • 1
  2. denis
    2024-01-14T01:07:22+08:002024-01-14T01:07:22+08:00

    Abaixo, a solução, baseada principalmente na proposta de TarJae (obrigado!), ligeiramente modificada no final,

    dat %>%
      group_by(id, visit) %>%
      mutate(
        count_wotxt = ifelse(grepl("^[0-9]+$", value), cumsum(grepl("^[0-9]+$", value)), NA),
             value_numeric = as.numeric(as.character(value)),
             diff_value_first = value_numeric - value_numeric[1]) %>%
      fill(value_numeric, .direction = "down") %>%
      mutate(diff_value_previous =
               case_when(is.na(count_wotxt) ~ NA,
                         count_wotxt == 1 ~ 0,
                         TRUE ~ (value_numeric - lag(value_numeric, default = first(value_numeric))))) %>%
      ungroup() %>%
      select(-value_numeric) 
    

    que dá

    > dat
    # A tibble: 15 x 7
       id    visit value count count_wotxt diff_value_first diff_value_previous
       <fct> <fct> <chr> <int>       <int>            <dbl>               <dbl>
     1 1     1     5         1           1                0                   0
     2 1     1     7         2           2                2                   2
     3 1     1     10        3           3                5                   3
     4 1     2     20        1           1                0                   0
     5 1     2     15        2           2               -5                  -5
     6 1     2     text0     3          NA               NA                  NA
     7 1     2     25        4           3                5                  10
     8 1     2     text1     5          NA               NA                  NA
     9 2     1     100       1           1                0                   0
    10 2     1     text2     2          NA               NA                  NA
    11 2     1     text3     3          NA               NA                  NA
    12 2     1     120       4           2               20                  20
    13 2     2     text4     1          NA               NA                  NA
    14 2     2     50        2           1               NA                   0
    15 2     2     45        3           2               NA                  -5  
    
    • 1

relate perguntas

  • Adicionar número de série para atividade de cópia ao blob

  • A fonte dinâmica do empacotador duplica artefatos

  • Selecione linhas por grupo com 1s consecutivos

  • Lista de chamada de API de gráfico subscritoSkus estados Privilégios insuficientes enquanto os privilégios são concedidos

  • Função para criar DFs separados com base no valor da coluna

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

    • 1 respostas
  • Marko Smith

    Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

    • 1 respostas
  • Marko Smith

    Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

    • 1 respostas
  • Marko Smith

    Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

    • 6 respostas
  • Marko Smith

    `(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

    • 3 respostas
  • Marko Smith

    Quando devo usar um std::inplace_vector em vez de um std::vector?

    • 3 respostas
  • Marko Smith

    Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

    • 1 respostas
  • Marko Smith

    PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

    • 2 respostas
  • Marko Smith

    AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

    • 1 respostas
  • Marko Smith

    Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

    • 1 respostas
  • Martin Hope
    Aleksandr Dubinsky Por que a correspondência de padrões com o switch no InetAddress falha com 'não cobre todos os valores de entrada possíveis'? 2024-12-23 06:56:21 +0800 CST
  • Martin Hope
    Phillip Borge Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle? 2024-12-12 20:46:46 +0800 CST
  • Martin Hope
    Oodini Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores? 2024-12-12 06:27:11 +0800 CST
  • Martin Hope
    sleeptightAnsiC `(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso? 2024-11-09 07:18:53 +0800 CST
  • Martin Hope
    The Mad Gamer Quando devo usar um std::inplace_vector em vez de um std::vector? 2024-10-29 23:01:00 +0800 CST
  • Martin Hope
    Chad Feller O ponto e vírgula agora é opcional em condicionais bash com [[ .. ]] na versão 5.2? 2024-10-21 05:50:33 +0800 CST
  • Martin Hope
    Wrench Por que um traço duplo (--) faz com que esta cláusula MariaDB seja avaliada como verdadeira? 2024-05-05 13:37:20 +0800 CST
  • Martin Hope
    Waket Zheng Por que `dict(id=1, **{'id': 2})` às vezes gera `KeyError: 'id'` em vez de um TypeError? 2024-05-04 14:19:19 +0800 CST
  • Martin Hope
    user924 AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos 2024-03-20 03:12:31 +0800 CST
  • Martin Hope
    MarkB Por que o GCC gera código que executa condicionalmente uma implementação SIMD? 2024-02-17 06:17:14 +0800 CST

Hot tag

python javascript c++ c# java typescript sql reactjs html

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve