Adicionar número de série para atividade de cópia ao blob

Question

CSStat

Asked: 2025-04-11 04:59:44 +0800 CST2025-04-11 04:59:44 +0800 CST 2025-04-11 04:59:44 +0800 CST

Agrupar linhas por grupo e intervalos de tempo sobrepostos e, em seguida, manter a linha de maior prioridade em R

772

Eu tenho um conjunto de dados como segue

data<- data.frame(group_ID= c("cred", "cred", "cred", "cyellow", "cyellow", "cgreen"), 
                  Start =c("2024-06-27,10:31:34", "2024-06-27,10:42:26", "2024-06-27,12:33:00", "2024-06-27,12:34:00","2024-06-27,12:54:00","2024-06-28,14:58:51"), 
End = c("2024-06-27,11:31:34","2024-06-27,11:42:26","2024-06-27,13:33:00", "2024-06-27,13:34:00","2024-06-27,13:54:00","2024-06-28,15:54:14"),
priorityrank=c(1, 2, 2, 2, 3, 3),
goaltokeep = c(TRUE, FALSE, TRUE, TRUE, FALSE, TRUE))

Onde cada linha representa uma observação de um grupo para uma determinada janela de tempo. Às vezes, várias pessoas observam o mesmo grupo ao mesmo tempo, então atribuímos uma "classificação de prioridade" onde números menores são a observação preferida, com 1 sendo a mais preferida e 3 sendo a menos preferida. Às vezes, grupos diferentes são observados ao mesmo tempo e isso não importa.

Quero manter a linha com o menor valor numérico "priorityrank" para um determinado grupo quando mais de uma janela de tempo de observação se sobrepõe. Com os dados de exemplo, a coluna "meta a manter" mostra as linhas que devem ser mantidas (VERDADEIRO) no conjunto de dados final.

Comecei tentando avaliar a sobreposição de diferentes linhas por número de ID . No entanto, quando executo os dados de exemplo (meus ou fornecidos pelo comentarista) usando o código sugerido por Alex (não faz login há mais de 3 anos, então não posso perguntar), recebo o seguinte erro.

Error in eval_tidy(args[[j]], mask) : 
  no function to return from, jumping to top level

Esta questão de SQL chega perto , mas não sei nada sobre SQL ou como fazer comparações em R.

Agradeço desde já a sua contribuição e ajuda! Estou com dificuldades com isso há algum tempo.

ATUALIZAR:

Muito obrigado a todos! Estou tendo um erro inesperado em cerca de 60 dos 1.000 casos com ambas as soluções possíveis quando uso o dataframe maior. Mesmo quando classifico meu dataframe por hora de início, esses erros persistem.

Isolei uma dessas instâncias que gera o erro, e aqui está reproduzida abaixo como um exemplo para trabalhar. Não tenho certeza do que está errado, já que o início vem antes do fim para qualquer linha.

dataerr<- data.frame(group_ID= c("cred", "cred", "cred"), 
                  Start =c("2024-06-27,12:33:00","2024-06-27,13:26:57","2024-06-27,13:33:36"), 
End = c("2024-06-27,13:33:00","2024-06-27,13:48:49","2024-06-27,13:49:42"),
priorityrank=c(2, 3, 2),
goaltokeep = c(TRUE, FALSE, TRUE))

Aqui estão os erros de cada solução. Não sei como interpretá-los, mesmo depois de pesquisar um pouco online, pois os começos parecem vir antes dos fins. Talvez seja algo entrelinhas?

Solução do erro de Friede:

Error in `iv()`:
! `start` must be less than `end`.
ℹ `start` is not less than `end` at locations: `2`.

Solução para o erro r2evans:

Error in `[[<-.data.frame`(`*tmp*`, col, value = c("cred", "cred", "cred",  : 
  replacement has 6 rows, data has 3

3 respostas

Voted

Friede · Answer 1 · 2025-04-11T05:20:59+08:00

Best Answer

Friede

2025-04-11T05:20:59+08:002025-04-11T05:20:59+08:00

Já que você está procurando uma {dplyr}solução, sugiro incorporar o poderoso {ivs}.

library(ivs)
library(dplyr)
# (1) clean data 
data = 
  data |>
  mutate(Start = strptime(Start, '%F,%T'), # %Y-%m-%d, %H:%M:%S
         End = strptime(End, '%F,%T')) |>
  arrange(group_ID, Start, End)
# (2) desired filtering 
data |>
  mutate(iv = iv_identify_group(iv(Start, End)), .by=group_ID) |>
  filter(priorityrank == min(priorityrank), .by=c(iv, group_ID)) |>
  select(-iv) # or -c(iv, goaltokeep) optional

  group_ID               Start                 End priorityrank goaltokeep
1   cgreen 2024-06-28 14:58:51 2024-06-28 15:54:14            3       TRUE
2     cred 2024-06-27 10:31:34 2024-06-27 11:31:34            1       TRUE
3     cred 2024-06-27 12:33:00 2024-06-27 13:33:00            2       TRUE
4     cred 2024-06-27 13:33:36 2024-06-27 13:49:42            2       TRUE
5  cyellow 2024-06-27 12:34:00 2024-06-27 13:34:00            2       TRUE

3

score 3 · Answer 2 · 2025-04-11T08:42:53+08:00

Uma alternativa, dplyrsomente, para verificar se a linha de uma linha Startestá antes da linha anterior End:

library(dplyr)
data |>
  mutate(across(c(Start, End), ~ as.POSIXct(sub(",", " ", .x)))) |>
  arrange(Start, End) |>
  mutate(.by = group_ID, g = cumsum(!Start < lag(End, default=first(End)))) |>
  mutate(.by = c(group_ID, g), newgoal = (priorityrank == min(priorityrank)))
#   group_ID               Start                 End priorityrank goaltokeep g newgoal
# 1     cred 2024-06-27 10:31:34 2024-06-27 11:31:34            1       TRUE 0    TRUE
# 2     cred 2024-06-27 10:42:26 2024-06-27 11:42:26            2      FALSE 0   FALSE
# 3     cred 2024-06-27 12:33:00 2024-06-27 13:33:00            2       TRUE 1    TRUE
# 4  cyellow 2024-06-27 12:34:00 2024-06-27 13:34:00            2       TRUE 0    TRUE
# 5  cyellow 2024-06-27 12:54:00 2024-06-27 13:54:00            3      FALSE 0   FALSE
# 6   cgreen 2024-06-28 14:58:51 2024-06-28 15:54:14            3       TRUE 0    TRUE

score 0 · Answer 3 · 2025-04-11T17:22:16+08:00

Outra maneira de usar IRanges::countOverlapsé marcar datas sobrepostas dentro de cada grupo e então priorizar a classificação de prioridade mínima.

library(IRanges);library(dplyr)

data.frame(group_ID= c("cred", "cred", "cred"), 
           Start =c("2024-06-27,12:33:00","2024-06-27,13:26:57","2024-06-27,13:33:36"), 
           End = c("2024-06-27,13:33:00","2024-06-27,13:48:49","2024-06-27,13:49:42"),
           priorityrank=c(2, 3, 2),
           goaltokeep = c(TRUE, FALSE, TRUE)) |> 

  mutate(across(c(Start, End), ~ as.POSIXct(sub(",", " ", .x)))) |>
  mutate(ov = countOverlaps(IRanges(start = as.numeric(Start), end = as.numeric(End))) > 1,.by = group_ID) |>
  mutate(goaltokeep2 = priorityrank == min(priorityrank), .by = c(ov, group_ID))

ID do grupo	Começar	Fim	classificação de prioridade	goleiro	ov	goleiro2
crédito	2024-06-27 12:33:00	2024-06-27 13:33:00	2	verdadeiro	verdadeiro	verdadeiro
crédito	2024-06-27 13:26:57	2024-06-27 13:48:49	3	FALSO	verdadeiro	FALSO
crédito	2024-06-27 13:33:36	2024-06-27 13:49:42	2	verdadeiro	verdadeiro	verdadeiro

Agrupar linhas por grupo e intervalos de tempo sobrepostos e, em seguida, manter a linha de maior prioridade em R

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Agrupar linhas por grupo e intervalos de tempo sobrepostos e, em seguida, manter a linha de maior prioridade em R

3 respostas

relate perguntas