将复制活动的序列号添加到 Blob

Question

DaniCee

Asked: 2024-08-29 16:34:45 +0800 CST2024-08-29 16:34:45 +0800 CST 2024-08-29 16:34:45 +0800 CST

将折叠的列分成多行，保留分组信息

772

我有一个混乱的表格，我将其读入类似于以下简化的数据框中，我想对其进行解析。

mydf <- data.frame(group=LETTERS[1:5], code=101:105, ids=c('g1:id1,id2,id3\ng2:id4,id5',
                                                           'id6,id7,id8,id9',
                                                           'g1:id10,id11\ng3:id12',
                                                           'g2:id13,id14',
                                                           'id15'))

它看起来像：

> mydf
  group code                        ids
1     A  101 g1:id1,id2,id3\ng2:id4,id5
2     B  102            id6,id7,id8,id9
3     C  103      g1:id10,id11\ng3:id12
4     D  104               g2:id13,id14
5     E  105                       id15

我需要将折叠的ids列分成多行，以获得长格式的最终数据框。

对于这一点，我通常会separate_rows从申请开始tidyr，但这种情况还有一个额外的问题：一些折叠ids被分组到子组中。

我想我应该先将这些子组分成不同的 ID 列，然后在这些列上应用separate_rows或separate_longer_delim...我不知道该怎么做。

我期望的最终数据框将是这样的，采用长格式，并subgroup在附加列中包含信息：

> mydf_new
   group code   id subgroup
1      A  101  id1       g1
2      A  101  id2       g1
3      A  101  id3       g1
4      A  101  id4       g2
5      A  101  id5       g2
6      B  102  id6     <NA>
7      B  102  id7     <NA>
8      B  102  id8     <NA>
9      B  102  id9     <NA>
10     C  103 id10       g1
11     C  103 id11       g1
12     C  103 id12       g3
13     D  104 id13       g2
14     D  104 id14       g2
15     E  105 id15     <NA>

2 个回答

Voted

lroha · Answer 1 · 2024-08-29T16:45:44+08:00

Best Answer

lroha

2024-08-29T16:45:44+08:002024-08-29T16:45:44+08:00

一种方法是将更宽/更长分为几个步骤：

library(tidyr)
library(dplyr)

mydf |> 
  separate_longer_delim(ids, "\n") |> 
  separate_wider_delim(ids, ":", names = c("subgroup", "id"), too_few = "align_end") |> 
  separate_longer_delim(id, ",") |> 
  relocate(subgroup, .after = last_col())

# A tibble: 15 × 4
   group  code id    subgroup
   <chr> <int> <chr> <chr>   
 1 A       101 id1   g1      
 2 A       101 id2   g1      
 3 A       101 id3   g1      
 4 A       101 id4   g2      
 5 A       101 id5   g2      
 6 B       102 id6   NA      
 7 B       102 id7   NA      
 8 B       102 id8   NA      
 9 B       102 id9   NA      
10 C       103 id10  g1      
11 C       103 id11  g1      
12 C       103 id12  g3      
13 D       104 id13  g2      
14 D       104 id14  g2      
15 E       105 id15  NA

3

Friede · Answer 2 · 2024-08-29T20:20:50+08:00

Friede

2024-08-29T20:20:50+08:002024-08-29T20:20:50+08:00

如果您愿意，这可能包括一些调整，您可以使用它们来开发更简洁的基础 R 版本：

id = read.table(text=mydf$ids, sep="\n", header=FALSE)
g = sub("\\:.*", "", id$V1); g[nchar(g)>2L]=NA
cbind(mydf[-3L][rep(seq(nrow(mydf)), sapply(mydf$ids, \(x) sum(utf8ToInt(x)==utf8ToInt("i")))), ], 
      id=unlist(i<-strsplit(sub(".*\\:", "", id$V1), ",")), 
      subgroup=rep(g, lengths(i)))

给予

    group code   id subgroup
1       A  101  id1       g1
1.1     A  101  id2       g1
1.2     A  101  id3       g1
1.3     A  101  id4       g2
1.4     A  101  id5       g2
2       B  102  id6     <NA>
2.1     B  102  id7     <NA>
2.2     B  102  id8     <NA>
2.3     B  102  id9     <NA>
3       C  103 id10       g1
3.1     C  103 id11       g1
3.2     C  103 id12       g3
4       D  104 id13       g2
4.1     D  104 id14       g2
5       E  105 id15     <NA>

1

将折叠的列分成多行，保留分组信息

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

如果 T 既不可构造、不可复制、也不可移动，那么我可以拥有 std::optional<T> 吗？

为什么我可以定义一个 constinit 的 std::string 实例？如果对象需要动态初始化，constinit 不是被禁止的吗？

如何分配以后放置的新“如同新”

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

将 NULL 和 nullptr 传递给模板参数有什么区别？

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

将折叠的列分成多行，保留分组信息

2 个回答

相关问题