将复制活动的序列号添加到 Blob

Question

JontroPothon

Asked: 2024-09-03 17:27:49 +0800 CST2024-09-03 17:27:49 +0800 CST 2024-09-03 17:27:49 +0800 CST

过滤以选择行对

772

我正在尝试id根据条件过滤对（由标识）。我有以下数据框，

id <- c(1,1,2,2,1,1,3,3,4,4)

PorF <- c("start","fail","start","pass","start","pass","start","pass","start","fail")

timest <- c(as.POSIXct("2021-05-08 08:15:07"),
            as.POSIXct("2021-05-08 08:15:45"),
            as.POSIXct("2021-05-28 08:17:09"),
            as.POSIXct("2021-05-28 08:17:25"),
            as.POSIXct("2021-05-28 08:32:07"),
            as.POSIXct("2021-05-28 08:32:12"),
            as.POSIXct("2021-05-28 08:33:14"),
            as.POSIXct("2021-05-28 08:33:45"),
            as.POSIXct("2021-05-28 08:34:12"),
            as.POSIXct("2021-05-28 08:34:56"))


testdf <- data.frame(id, PorF, timest)
testdf

> testdf
   id  PorF              timest
1   1 start 2021-05-08 08:15:07
2   1  fail 2021-05-08 08:15:45
3   2 start 2021-05-28 08:17:09
4   2  pass 2021-05-28 08:17:25
5   1 start 2021-05-28 08:32:07
6   1  pass 2021-05-28 08:32:12
7   3 start 2021-05-28 08:33:14
8   3  pass 2021-05-28 08:33:45
9   4 start 2021-05-28 08:34:12
10  4  fail 2021-05-28 08:34:56

我想过滤那些有 start 和 pass 的 ID。所有有 start 和 fail 的配对都应该被过滤掉。

我的预期输出应该是这样的，

> filtered_testdf
id  PorF              timest
2 start 2021-05-28 08:17:09
2  pass 2021-05-28 08:17:25
1 start 2021-05-28 08:32:07
1  pass 2021-05-28 08:32:12
3 start 2021-05-28 08:33:14
3  pass 2021-05-28 08:33:45

我正在尝试的是这个，但它并没有给我想要的东西，

testdf |> 
  group_by(id) |> 
  filter(PorF == "start" & PorF == "pass")

知道如何实现预期结果吗？

3 个回答

Voted

deschen · Answer 1 · 2024-09-03T17:36:11+08:00

Best Answer

deschen

2024-09-03T17:36:11+08:002024-09-03T17:36:11+08:00

您可以执行以下操作：

library(tidyverse)

testdf |> 
  mutate(id_helper = cumsum(PorF == "start")) |> 
  filter(any(PorF == "start") & any(PorF == "pass"), .by = id_helper)

或者等价地：

testdf |> 
  mutate(id_helper = cumsum(PorF == "start")) |> 
  filter(!any(PorF == "fail"), .by = id_helper)

  id  PorF              timest id_helper
1  2 start 2021-05-28 08:17:09         2
2  2  pass 2021-05-28 08:17:25         2
3  1 start 2021-05-28 08:32:07         3
4  1  pass 2021-05-28 08:32:12         3
5  3 start 2021-05-28 08:33:14         4
6  3  pass 2021-05-28 08:33:45         4

请注意，我必须创建一个额外的 id 变量，因为（参见我上面的评论）有几对具有相同 id 的行（即 id 1 有两对）。

3

Edward · Answer 2 · 2024-09-03T18:42:20+08:00

Edward

2024-09-03T18:42:20+08:002024-09-03T18:42:20+08:00

您可以编写一个小辅助函数，根据每对的第一行（开始）或第二行（结果）将数据分成两部分（假设您的对是连续的），然后找出第二行中通过（或失败）的行。然后将它们合并起来。

filter_pair <- function(data, result) {
  df <- split(data, 1:2)
  idx <- which(df[[2]][,'PorF']==result)
  rbind(df[[1]][idx,], df[[2]][idx,]) |>
    dplyr::arrange(id, timest)
}

filter_pair(testdf, "pass")

  id  PorF              timest
1  1 start 2021-05-28 08:32:07
2  1  pass 2021-05-28 08:32:12
3  2 start 2021-05-28 08:17:09
4  2  pass 2021-05-28 08:17:25
5  3 start 2021-05-28 08:33:14
6  3  pass 2021-05-28 08:33:45

filter_pair(testdf, "fail")

  id  PorF              timest
1  1 start 2021-05-08 08:15:07
2  1  fail 2021-05-08 08:15:45
3  4 start 2021-05-28 08:34:12
4  4  fail 2021-05-28 08:34:56

2

ThomasIsCoding · Answer 3 · 2024-09-03T18:48:08+08:00

ThomasIsCoding

2024-09-03T18:48:08+08:002024-09-03T18:48:08+08:00

基本 R 选项，但遵循与deschen 解决方案相同的理念

> subset(testdf, !ave(PorF == "fail", cumsum(PorF == "start")))
  id  PorF              timest
3  2 start 2021-05-28 08:17:09
4  2  pass 2021-05-28 08:17:25
5  1 start 2021-05-28 08:32:07
6  1  pass 2021-05-28 08:32:12
7  3 start 2021-05-28 08:33:14
8  3  pass 2021-05-28 08:33:45

1

过滤以选择行对

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

过滤以选择行对

3 个回答

相关问题