AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / coding / Perguntas / 79567570
Accepted
CSStat
CSStat
Asked: 2025-04-11 04:59:44 +0800 CST2025-04-11 04:59:44 +0800 CST 2025-04-11 04:59:44 +0800 CST

Agrupar linhas por grupo e intervalos de tempo sobrepostos e, em seguida, manter a linha de maior prioridade em R

  • 772

Eu tenho um conjunto de dados como segue

data<- data.frame(group_ID= c("cred", "cred", "cred", "cyellow", "cyellow", "cgreen"), 
                  Start =c("2024-06-27,10:31:34", "2024-06-27,10:42:26", "2024-06-27,12:33:00", "2024-06-27,12:34:00","2024-06-27,12:54:00","2024-06-28,14:58:51"), 
End = c("2024-06-27,11:31:34","2024-06-27,11:42:26","2024-06-27,13:33:00", "2024-06-27,13:34:00","2024-06-27,13:54:00","2024-06-28,15:54:14"),
priorityrank=c(1, 2, 2, 2, 3, 3),
goaltokeep = c(TRUE, FALSE, TRUE, TRUE, FALSE, TRUE))

Onde cada linha representa uma observação de um grupo para uma determinada janela de tempo. Às vezes, várias pessoas observam o mesmo grupo ao mesmo tempo, então atribuímos uma "classificação de prioridade" onde números menores são a observação preferida, com 1 sendo a mais preferida e 3 sendo a menos preferida. Às vezes, grupos diferentes são observados ao mesmo tempo e isso não importa.

Quero manter a linha com o menor valor numérico "priorityrank" para um determinado grupo quando mais de uma janela de tempo de observação se sobrepõe. Com os dados de exemplo, a coluna "meta a manter" mostra as linhas que devem ser mantidas (VERDADEIRO) no conjunto de dados final.

Comecei tentando avaliar a sobreposição de diferentes linhas por número de ID . No entanto, quando executo os dados de exemplo (meus ou fornecidos pelo comentarista) usando o código sugerido por Alex (não faz login há mais de 3 anos, então não posso perguntar), recebo o seguinte erro.

Error in eval_tidy(args[[j]], mask) : 
  no function to return from, jumping to top level

Esta questão de SQL chega perto , mas não sei nada sobre SQL ou como fazer comparações em R.

Agradeço desde já a sua contribuição e ajuda! Estou com dificuldades com isso há algum tempo.


ATUALIZAR:

Muito obrigado a todos! Estou tendo um erro inesperado em cerca de 60 dos 1.000 casos com ambas as soluções possíveis quando uso o dataframe maior. Mesmo quando classifico meu dataframe por hora de início, esses erros persistem.

Isolei uma dessas instâncias que gera o erro, e aqui está reproduzida abaixo como um exemplo para trabalhar. Não tenho certeza do que está errado, já que o início vem antes do fim para qualquer linha.

dataerr<- data.frame(group_ID= c("cred", "cred", "cred"), 
                  Start =c("2024-06-27,12:33:00","2024-06-27,13:26:57","2024-06-27,13:33:36"), 
End = c("2024-06-27,13:33:00","2024-06-27,13:48:49","2024-06-27,13:49:42"),
priorityrank=c(2, 3, 2),
goaltokeep = c(TRUE, FALSE, TRUE))

Aqui estão os erros de cada solução. Não sei como interpretá-los, mesmo depois de pesquisar um pouco online, pois os começos parecem vir antes dos fins. Talvez seja algo entrelinhas?

Solução do erro de Friede:

Error in `iv()`:
! `start` must be less than `end`.
ℹ `start` is not less than `end` at locations: `2`.

Solução para o erro r2evans:

Error in `[[<-.data.frame`(`*tmp*`, col, value = c("cred", "cred", "cred",  : 
  replacement has 6 rows, data has 3
  • 3 3 respostas
  • 89 Views

3 respostas

  • Voted
  1. Best Answer
    Friede
    2025-04-11T05:20:59+08:002025-04-11T05:20:59+08:00

    Já que você está procurando uma {dplyr}solução, sugiro incorporar o poderoso {ivs}.

    library(ivs)
    library(dplyr)
    # (1) clean data 
    data = 
      data |>
      mutate(Start = strptime(Start, '%F,%T'), # %Y-%m-%d, %H:%M:%S
             End = strptime(End, '%F,%T')) |>
      arrange(group_ID, Start, End)
    # (2) desired filtering 
    data |>
      mutate(iv = iv_identify_group(iv(Start, End)), .by=group_ID) |>
      filter(priorityrank == min(priorityrank), .by=c(iv, group_ID)) |>
      select(-iv) # or -c(iv, goaltokeep) optional
    
      group_ID               Start                 End priorityrank goaltokeep
    1   cgreen 2024-06-28 14:58:51 2024-06-28 15:54:14            3       TRUE
    2     cred 2024-06-27 10:31:34 2024-06-27 11:31:34            1       TRUE
    3     cred 2024-06-27 12:33:00 2024-06-27 13:33:00            2       TRUE
    4     cred 2024-06-27 13:33:36 2024-06-27 13:49:42            2       TRUE
    5  cyellow 2024-06-27 12:34:00 2024-06-27 13:34:00            2       TRUE
    
    • 3
  2. 2025-04-11T08:42:53+08:002025-04-11T08:42:53+08:00

    Uma alternativa, dplyrsomente, para verificar se a linha de uma linha Startestá antes da linha anterior End:

    library(dplyr)
    data |>
      mutate(across(c(Start, End), ~ as.POSIXct(sub(",", " ", .x)))) |>
      arrange(Start, End) |>
      mutate(.by = group_ID, g = cumsum(!Start < lag(End, default=first(End)))) |>
      mutate(.by = c(group_ID, g), newgoal = (priorityrank == min(priorityrank)))
    #   group_ID               Start                 End priorityrank goaltokeep g newgoal
    # 1     cred 2024-06-27 10:31:34 2024-06-27 11:31:34            1       TRUE 0    TRUE
    # 2     cred 2024-06-27 10:42:26 2024-06-27 11:42:26            2      FALSE 0   FALSE
    # 3     cred 2024-06-27 12:33:00 2024-06-27 13:33:00            2       TRUE 1    TRUE
    # 4  cyellow 2024-06-27 12:34:00 2024-06-27 13:34:00            2       TRUE 0    TRUE
    # 5  cyellow 2024-06-27 12:54:00 2024-06-27 13:54:00            3      FALSE 0   FALSE
    # 6   cgreen 2024-06-28 14:58:51 2024-06-28 15:54:14            3       TRUE 0    TRUE
    
    • 3
  3. 2025-04-11T17:22:16+08:002025-04-11T17:22:16+08:00

    Outra maneira de usar IRanges::countOverlapsé marcar datas sobrepostas dentro de cada grupo e então priorizar a classificação de prioridade mínima.

    library(IRanges);library(dplyr)
    
    data.frame(group_ID= c("cred", "cred", "cred"), 
               Start =c("2024-06-27,12:33:00","2024-06-27,13:26:57","2024-06-27,13:33:36"), 
               End = c("2024-06-27,13:33:00","2024-06-27,13:48:49","2024-06-27,13:49:42"),
               priorityrank=c(2, 3, 2),
               goaltokeep = c(TRUE, FALSE, TRUE)) |> 
    
      mutate(across(c(Start, End), ~ as.POSIXct(sub(",", " ", .x)))) |>
      mutate(ov = countOverlaps(IRanges(start = as.numeric(Start), end = as.numeric(End))) > 1,.by = group_ID) |>
      mutate(goaltokeep2 = priorityrank == min(priorityrank), .by = c(ov, group_ID))
    
    
    ID do grupo Começar Fim classificação de prioridade goleiro ov goleiro2
    crédito 2024-06-27 12:33:00 2024-06-27 13:33:00 2 verdadeiro verdadeiro verdadeiro
    crédito 2024-06-27 13:26:57 2024-06-27 13:48:49 3 FALSO verdadeiro FALSO
    crédito 2024-06-27 13:33:36 2024-06-27 13:49:42 2 verdadeiro verdadeiro verdadeiro
    • 0

relate perguntas

  • Adicionar número de série para atividade de cópia ao blob

  • A fonte dinâmica do empacotador duplica artefatos

  • Selecione linhas por grupo com 1s consecutivos

  • Lista de chamada de API de gráfico subscritoSkus estados Privilégios insuficientes enquanto os privilégios são concedidos

  • Função para criar DFs separados com base no valor da coluna

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Reformatar números, inserindo separadores em posições fixas

    • 6 respostas
  • Marko Smith

    Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

    • 2 respostas
  • Marko Smith

    Problema com extensão desinstalada automaticamente do VScode (tema Material)

    • 2 respostas
  • Marko Smith

    Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

    • 1 respostas
  • Marko Smith

    Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

    • 1 respostas
  • Marko Smith

    Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

    • 6 respostas
  • Marko Smith

    `(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

    • 3 respostas
  • Marko Smith

    Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

    • 1 respostas
  • Marko Smith

    PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

    • 2 respostas
  • Marko Smith

    AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

    • 1 respostas
  • Martin Hope
    Fantastic Mr Fox Somente o tipo copiável não é aceito na implementação std::vector do MSVC 2025-04-23 06:40:49 +0800 CST
  • Martin Hope
    Howard Hinnant Encontre o próximo dia da semana usando o cronógrafo 2025-04-21 08:30:25 +0800 CST
  • Martin Hope
    Fedor O inicializador de membro do construtor pode incluir a inicialização de outro membro? 2025-04-15 01:01:44 +0800 CST
  • Martin Hope
    Petr Filipský Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não? 2025-03-23 21:39:40 +0800 CST
  • Martin Hope
    Catskul O C++20 mudou para permitir a conversão de `type(&)[N]` de matriz de limites conhecidos para `type(&)[]` de matriz de limites desconhecidos? 2025-03-04 06:57:53 +0800 CST
  • Martin Hope
    Stefan Pochmann Como/por que {2,3,10} e {x,3,10} com x=2 são ordenados de forma diferente? 2025-01-13 23:24:07 +0800 CST
  • Martin Hope
    Chad Feller O ponto e vírgula agora é opcional em condicionais bash com [[ .. ]] na versão 5.2? 2024-10-21 05:50:33 +0800 CST
  • Martin Hope
    Wrench Por que um traço duplo (--) faz com que esta cláusula MariaDB seja avaliada como verdadeira? 2024-05-05 13:37:20 +0800 CST
  • Martin Hope
    Waket Zheng Por que `dict(id=1, **{'id': 2})` às vezes gera `KeyError: 'id'` em vez de um TypeError? 2024-05-04 14:19:19 +0800 CST
  • Martin Hope
    user924 AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos 2024-03-20 03:12:31 +0800 CST

Hot tag

python javascript c++ c# java typescript sql reactjs html

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve