Adicionar número de série para atividade de cópia ao blob

Question

JontroPothon

Asked: 2024-09-03 17:27:49 +0800 CST2024-09-03 17:27:49 +0800 CST 2024-09-03 17:27:49 +0800 CST

Filtrar para selecionar pares de linhas

772

Estou tentando filtrar pares (identificados por id) com base em condições. Tenho o seguinte data frame,

id <- c(1,1,2,2,1,1,3,3,4,4)

PorF <- c("start","fail","start","pass","start","pass","start","pass","start","fail")

timest <- c(as.POSIXct("2021-05-08 08:15:07"),
            as.POSIXct("2021-05-08 08:15:45"),
            as.POSIXct("2021-05-28 08:17:09"),
            as.POSIXct("2021-05-28 08:17:25"),
            as.POSIXct("2021-05-28 08:32:07"),
            as.POSIXct("2021-05-28 08:32:12"),
            as.POSIXct("2021-05-28 08:33:14"),
            as.POSIXct("2021-05-28 08:33:45"),
            as.POSIXct("2021-05-28 08:34:12"),
            as.POSIXct("2021-05-28 08:34:56"))


testdf <- data.frame(id, PorF, timest)
testdf

> testdf
   id  PorF              timest
1   1 start 2021-05-08 08:15:07
2   1  fail 2021-05-08 08:15:45
3   2 start 2021-05-28 08:17:09
4   2  pass 2021-05-28 08:17:25
5   1 start 2021-05-28 08:32:07
6   1  pass 2021-05-28 08:32:12
7   3 start 2021-05-28 08:33:14
8   3  pass 2021-05-28 08:33:45
9   4 start 2021-05-28 08:34:12
10  4  fail 2021-05-28 08:34:56

Quero filtrar aqueles IDs que têm um start e um pass. Todos os pares com start e fail devem ser filtrados.

Minha saída esperada deve ser semelhante a esta,

> filtered_testdf
id  PorF              timest
2 start 2021-05-28 08:17:09
2  pass 2021-05-28 08:17:25
1 start 2021-05-28 08:32:07
1  pass 2021-05-28 08:32:12
3 start 2021-05-28 08:33:14
3  pass 2021-05-28 08:33:45

O que estou tentando é isso que não está dando o que eu quero,

testdf |> 
  group_by(id) |> 
  filter(PorF == "start" & PorF == "pass")

Alguma ideia de como atingir o resultado esperado?

3 respostas

Voted

deschen · Answer 1 · 2024-09-03T17:36:11+08:00

Best Answer

deschen

2024-09-03T17:36:11+08:002024-09-03T17:36:11+08:00

Você pode fazer:

library(tidyverse)

testdf |> 
  mutate(id_helper = cumsum(PorF == "start")) |> 
  filter(any(PorF == "start") & any(PorF == "pass"), .by = id_helper)

Ou equivalentemente:

testdf |> 
  mutate(id_helper = cumsum(PorF == "start")) |> 
  filter(!any(PorF == "fail"), .by = id_helper)

  id  PorF              timest id_helper
1  2 start 2021-05-28 08:17:09         2
2  2  pass 2021-05-28 08:17:25         2
3  1 start 2021-05-28 08:32:07         3
4  1  pass 2021-05-28 08:32:12         3
5  3 start 2021-05-28 08:33:14         4
6  3  pass 2021-05-28 08:33:45         4

Observe que tive que criar uma variável id adicional, pois (veja meu comentário acima) há vários pares de linhas com o mesmo id (ou seja, o id 1 tem dois pares).

3

Edward · Answer 2 · 2024-09-03T18:42:20+08:00

Edward

2024-09-03T18:42:20+08:002024-09-03T18:42:20+08:00

Você pode escrever uma pequena função auxiliar que divide os dados em dois com base na primeira (início) ou segunda (resultado) linha de cada "par" (assumindo que seus pares são contíguos) e então encontra as linhas no segundo que passaram (ou falharam). Então, combine-as.

filter_pair <- function(data, result) {
  df <- split(data, 1:2)
  idx <- which(df[[2]][,'PorF']==result)
  rbind(df[[1]][idx,], df[[2]][idx,]) |>
    dplyr::arrange(id, timest)
}

filter_pair(testdf, "pass")

  id  PorF              timest
1  1 start 2021-05-28 08:32:07
2  1  pass 2021-05-28 08:32:12
3  2 start 2021-05-28 08:17:09
4  2  pass 2021-05-28 08:17:25
5  3 start 2021-05-28 08:33:14
6  3  pass 2021-05-28 08:33:45

filter_pair(testdf, "fail")

  id  PorF              timest
1  1 start 2021-05-08 08:15:07
2  1  fail 2021-05-08 08:15:45
3  4 start 2021-05-28 08:34:12
4  4  fail 2021-05-28 08:34:56

2

ThomasIsCoding · Answer 3 · 2024-09-03T18:48:08+08:00

ThomasIsCoding

2024-09-03T18:48:08+08:002024-09-03T18:48:08+08:00

Uma opção R básica, mas segue a mesma filosofia da solução de Deschen

> subset(testdf, !ave(PorF == "fail", cumsum(PorF == "start")))
  id  PorF              timest
3  2 start 2021-05-28 08:17:09
4  2  pass 2021-05-28 08:17:25
5  1 start 2021-05-28 08:32:07
6  1  pass 2021-05-28 08:32:12
7  3 start 2021-05-28 08:33:14
8  3  pass 2021-05-28 08:33:45

1

Filtrar para selecionar pares de linhas

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Filtrar para selecionar pares de linhas

3 respostas

relate perguntas