JontroPothon提出的问题 -coding

JontroPothon

Asked: 2025-02-13 03:17:56 +0800 CST

使用 tidyr 分离字母数字字符串单独的更宽的正则表达式

8

我有以下数据，

id <- c("case1", "case19", "case88", "case77")
vec <- c("One_20 (19)",
         "tWo_20 (290)",
         "Three_38 (399)",
         NA)

df <- data.frame(id, vec)

> df
      id            vec
1  case1    One_20 (19)
2 case19   tWo_20 (290)
3 case88 Three_38 (399)
4 case77           <NA>

我想将vec向量分成两个变量，即：txt和。我更喜欢这样num使用，tidyr

df |> tidyr::separate_wider_regex(vec, 
                                   c(txt = "[A-Za-z]+", num = "\\d+"),
                                   too_few = "align_start")
# A tibble: 4 × 3
  id     txt   num  
  <chr>  <chr> <chr>
1 case1  One   NA   
2 case19 tWo   NA   
3 case88 Three NA   
4 case77 NA    NA

但是，这不是我想要的。我有以下期望：

      id      txt num
1  case1   One_20  19
2 case19   tWo_20 290
3 case88 Three_38 399
4 case77     <NA>  NA

我在正则表达式部分犯了错误。有什么帮助可以纠正这些错误，以便我能够得到预期的表格作为输出吗？

JontroPothon

Asked: 2025-02-13 00:58:53 +0800 CST

聚合字符向量时忽略 NA

6

我有这个非常简单的数据集。

id <- c(12, 13, 26, 45, 55, 66)
group <- c("one", "one", "two", "two", "three", "three")
txt <- c("quick", "brown", NA, "fox", NA, NA)

df <- data.frame(id, group, txt)
df
> df
  id group   txt
1 12   one quick
2 13   one brown
3 26   two  <NA>
4 45   two   fox
5 55 three  <NA>
6 66 three  <NA>

我想按组进行聚合。我正在尝试这个，

df |> 
  dplyr::group_by(group) |> 
  dplyr::summarise(txt = paste(txt, collapse = ", "))

# A tibble: 3 × 2
  group txt         
  <chr> <chr>       
1 one   quick, brown
2 three NA, NA      
3 two   NA, fox

正如我们所见，它们NA被显示为字符。其次，在组列中，三位于一之后。我想要这样的内容，

  group          txt
1   one quick, brown
2   two          fox
3 three         <NA>

知道如何解决这个简单的问题吗？

JontroPothon

Asked: 2025-02-04 18:11:43 +0800 CST

根据行中附加的数字重新排列字符串元素

6

我有这个数据框，

set.seed(124)
id <- rnorm(5, mean = 100, sd = 59)
charVar <- c("Eeny (2), meeny (10), miny (21), moe (1)",
  "Catch (112), a (2), tiger (33), by (44), the (2), toe (24)",
  NA,
  "If (2), he (33), hollers (15), let (66), him (1), go (55)",
  "Eeny (224), meeny (44), miny (50), moe (76)")
df <- data.frame(id, charVar)
df
> df
         id                                                    charVar
1  18.28083                   Eeny (2), meeny (10), miny (21), moe (1)
2 102.26107 Catch (112), a (2), tiger (33), by (44), the (2), toe (24)
3  54.98122                                                       <NA>
4 112.52606  If (2), he (33), hollers (15), let (66), him (1), go (55)
5 184.10674                Eeny (224), meeny (44), miny (50), moe (76)

我想用它按数字对行中的每个元素进行排序。预期输出应如下所示：

> df
         id                                                     charVar
1  18.28083                    miny (21), meeny (10), Eeny (2), moe (1)
2 102.26107 Catch (112), by (44), tiger (33), toe (24), a (2),  the (2)
3  54.98122                                                        <NA>
4 112.52606   let (66), go (55), he (33), hollers (15), If (2), him (1)
5 184.10674                 Eeny (224), moe (76), miny (50), meeny (44)

知道如何实现预期结果吗？如能提供任何帮助，我将不胜感激。

JontroPothon

Asked: 2025-01-08 23:36:34 +0800 CST

根据向量重命名多个变量

8

我有这个数据框，

set.seed(123)
dataf <- data.frame( id = seq(1:5), 
                     A_1 = rnorm(5),
                     A_2 = rnorm(5),
                     A_3 = rnorm(5),
                     A_4 = rnorm(5),
                     A_5 = rnorm(5))

> dataf 
  id         A_1        A_2        A_3        A_4        A_5
1  1 -0.56047565  1.7150650  1.2240818  1.7869131 -1.0678237
2  2 -0.23017749  0.4609162  0.3598138  0.4978505 -0.2179749
3  3  1.55870831 -1.2650612  0.4007715 -1.9666172 -1.0260044
4  4  0.07050839 -0.6868529  0.1106827  0.7013559 -0.7288912
5  5  0.12928774 -0.4456620 -0.5558411 -0.4727914 -0.6250393

我有一个如下的向量，我想基于它重命名上述数据框变量。

sep <- c(0, 1, 1, 0, 0)

在这个向量中，我有一个标记，根据该标记可以重命名变量。如果标记为 0，则不更改。如果标记为 1，我们会在变量名称中添加一个前缀，例如。_mod例如，的第二个元素sep是 1，这意味着我需要将第二个变量重命名A_2为A_2_mod。结果表应如下所示：

  id         A_1    A_2_mod    A_3_mod        A_4        A_5
1  1 -0.56047565  1.7150650  1.2240818  1.7869131 -1.0678237
2  2 -0.23017749  0.4609162  0.3598138  0.4978505 -0.2179749
3  3  1.55870831 -1.2650612  0.4007715 -1.9666172 -1.0260044
4  4  0.07050839 -0.6868529  0.1106827  0.7013559 -0.7288912
5  5  0.12928774 -0.4456620 -0.5558411 -0.4727914 -0.6250393

我可以通过按位置重命名轻松完成此操作。但是，我想知道如何在有数千列的情况下使重命名可扩展。

JontroPothon

Asked: 2025-01-08 05:21:45 +0800 CST

按逻辑值分组聚合

7

我有这个数据框：

dataf <- tibble(A = sample(c(TRUE, FALSE), 10, replace = T), 
+                B = sample(c(TRUE, FALSE), 10, replace = T), 
+                C = sample(c(TRUE, FALSE), 10, replace = T), 
+                group = c(rep("grp1", 3), rep("grp2", 3), rep("grp3", 4)))

> dataf
# A tibble: 10 × 4
   A     B     C     group
   <lgl> <lgl> <lgl> <chr>
 1 TRUE  TRUE  TRUE  grp1 
 2 FALSE TRUE  TRUE  grp1 
 3 TRUE  TRUE  TRUE  grp1 
 4 TRUE  TRUE  TRUE  grp2 
 5 FALSE TRUE  TRUE  grp2 
 6 TRUE  FALSE TRUE  grp2 
 7 TRUE  FALSE FALSE grp3 
 8 TRUE  FALSE TRUE  grp3 
 9 FALSE FALSE TRUE  grp3 
10 FALSE FALSE  FALSE grp3

我想按变量组聚合行。如果在列中存在TRUE，TRUE则将存在，否则FALSE。例如，在grp1A 列中有TRUE、FALSE和TRUE。由于它有TRUE，因此聚合应该是TRUE针对grp1列A。同样，grp3B 列应该有FALSE，因为它没有TRUE。

生成的数据框看起来应如下：

 A     B     C     groupp
  <lgl> <lgl> <lgl> <chr> 
1 TRUE  TRUE  TRUE  grp1  
2 TRUE  TRUE  TRUE grp2  
3 TRUE  FALSE  TRUE  grp3

知道如何实现这个吗？

JontroPothon

Asked: 2024-11-13 16:02:02 +0800 CST

在一列中搜索多个关键字并为每个关键字创建列

9

我有以下数据。

stringstosearch <- c("to", "and", "at", "from", "is", "of")

set.seed(199)
datatxt <- data.frame(id = c(rnorm(5)), 
                       x = c("Contrary to popular belief, Lorem Ipsum is not simply random text.",
       "A Latin professor at Hampden-Sydney College in Virginia",
       "It has roots in a piece of classical Latin ", 
       "literature from 45 BC, making it over 2000 years old.", 
       "The standard chunk of Lorem Ipsum used since"))

我想要搜索列出的关键字stringtosearch并为每个关键字创建包含结果的列。

我试过

library(stringr)
datatxt$result <- str_detect(datatxt$x, paste0(stringstosearch, collapse = '|'))

返回

> datatxt$result
[1] TRUE TRUE TRUE TRUE TRUE

然而，我正在寻找一种为每个单词创建一个布尔向量的方法stringstosearch，即

          id                                                                  x    to   and    at  from    is    of
1 -1.9091427 Contrary to popular belief, Lorem Ipsum is not simply random text.  TRUE FALSE FALSE FALSE  TRUE  TRUE
2  0.5551667            A Latin professor at Hampden-Sydney College in Virginia FALSE FALSE  TRUE FALSE FALSE FALSE
3 -2.2163365                        It has roots in a piece of classical Latin  FALSE FALSE FALSE FALSE FALSE FALSE
4  0.4941455              literature from 45 BC, making it over 2000 years old. FALSE FALSE FALSE  TRUE FALSE FALSE
5 -0.5805710                       The standard chunk of Lorem Ipsum used since FALSE FALSE FALSE FALSE FALSE FALSE

知道如何实现这个吗？

JontroPothon

Asked: 2024-09-03 17:27:49 +0800 CST

过滤以选择行对

7

我正在尝试id根据条件过滤对（由标识）。我有以下数据框，

id <- c(1,1,2,2,1,1,3,3,4,4)

PorF <- c("start","fail","start","pass","start","pass","start","pass","start","fail")

timest <- c(as.POSIXct("2021-05-08 08:15:07"),
            as.POSIXct("2021-05-08 08:15:45"),
            as.POSIXct("2021-05-28 08:17:09"),
            as.POSIXct("2021-05-28 08:17:25"),
            as.POSIXct("2021-05-28 08:32:07"),
            as.POSIXct("2021-05-28 08:32:12"),
            as.POSIXct("2021-05-28 08:33:14"),
            as.POSIXct("2021-05-28 08:33:45"),
            as.POSIXct("2021-05-28 08:34:12"),
            as.POSIXct("2021-05-28 08:34:56"))


testdf <- data.frame(id, PorF, timest)
testdf

> testdf
   id  PorF              timest
1   1 start 2021-05-08 08:15:07
2   1  fail 2021-05-08 08:15:45
3   2 start 2021-05-28 08:17:09
4   2  pass 2021-05-28 08:17:25
5   1 start 2021-05-28 08:32:07
6   1  pass 2021-05-28 08:32:12
7   3 start 2021-05-28 08:33:14
8   3  pass 2021-05-28 08:33:45
9   4 start 2021-05-28 08:34:12
10  4  fail 2021-05-28 08:34:56

我想过滤那些有 start 和 pass 的 ID。所有有 start 和 fail 的配对都应该被过滤掉。

我的预期输出应该是这样的，

> filtered_testdf
id  PorF              timest
2 start 2021-05-28 08:17:09
2  pass 2021-05-28 08:17:25
1 start 2021-05-28 08:32:07
1  pass 2021-05-28 08:32:12
3 start 2021-05-28 08:33:14
3  pass 2021-05-28 08:33:45

我正在尝试的是这个，但它并没有给我想要的东西，

testdf |> 
  group_by(id) |> 
  filter(PorF == "start" & PorF == "pass")

知道如何实现预期结果吗？

使用 tidyr 分离字母数字字符串单独的更宽的正则表达式

聚合字符向量时忽略 NA

根据行中附加的数字重新排列字符串元素

根据向量重命名多个变量

按逻辑值分组聚合

在一列中搜索多个关键字并为每个关键字创建列

过滤以选择行对

为什么 C++20 概念会导致循环约束错误，而老式的 SFINAE 不会？

VScode 自动卸载扩展的问题（Material 主题）

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

JontroPothon's questions