将复制活动的序列号添加到 Blob

Question

zhang

Asked: 2024-05-25 19:18:26 +0800 CST2024-05-25 19:18:26 +0800 CST 2024-05-25 19:18:26 +0800 CST

如何在R中拆分data.table中的多个字段并相应地扩展行？[复制]

772

我正在使用data.tableR 中的一个，其中多个字段可以包含多个用分号分隔的值。我试图将这些值分成单独的行，每个值对应于表中的一个新行。但挑战在于各个单独的领域是相关的，需要相应的拆分和扩展。

示例数据：

library(data.table)
df <- data.table(probe = c('A', 'B', 'C'), # there are many columns in real data
                 gene = c('geneA', 'geneB;geneC', 'geneD;geneH;geneI;geneO'), 
                 type = c('mRNA', 'mRNA;miRNA', 'mRNA;miRNA;mRNA;miRNA'))

df
    probe                    gene                  type
1:      A                   geneA                  mRNA
2:      B             geneB;geneC            mRNA;miRNA
3:      C geneD;geneH;geneI;geneO mRNA;miRNA;mRNA;miRNA

预期输出：

df.new <- data.table(probe = c('A', 'B', 'B', 'C', 'C', 'C', 'C'), 
                     gene = c('geneA', 'geneB', 'geneC', 'geneD', 'geneH', 'geneI', 'geneO'), 
                     type = c('mRNA', 'mRNA', 'miRNA', 'mRNA', 'miRNA', 'mRNA', 'miRNA'))

df.new
    probe   gene   type
1:      A  geneA   mRNA
2:      B  geneB   mRNA
3:      B  geneC  miRNA
4:      C  geneD   mRNA
5:      C  geneH  miRNA
6:      C  geneI   mRNA
7:      C  geneO  miRNA

感谢您的好意建议

3 个回答

Voted

Andre Wildberg · Answer 1 · 2024-05-25T20:03:58+08:00

Best Answer

Andre Wildberg

2024-05-25T20:03:58+08:002024-05-25T20:03:58+08:00

一种方法使用strsplit

library(data.table)

df[, lapply(.SD[,c("gene", "type")], \(x) unlist(strsplit(x, ";"))), by = probe]
    probe   gene   type
   <char> <char> <char>
1:      A  geneA   mRNA
2:      B  geneB   mRNA
3:      B  geneC  miRNA
4:      C  geneD   mRNA
5:      C  geneH  miRNA
6:      C  geneI   mRNA
7:      C  geneO  miRNA

2

score 1 · Answer 2 · 2024-05-25T19:23:01+08:00

2024-05-25T19:23:01+08:002024-05-25T19:23:01+08:00

您可以使用separate_longer_delim来自{tidyr}.

library(tidyr)

separate_longer_delim(df, c(gene, type), ';')

#   probe  gene  type
# 1     A geneA  mRNA
# 2     B geneB  mRNA
# 3     B geneC miRNA
# 4     C geneD  mRNA
# 5     C geneH miRNA
# 6     C geneI  mRNA
# 7     C geneO miRNA

1

Ronak Shah · Answer 3 · 2024-05-25T19:26:02+08:00

Ronak Shah

2024-05-25T19:26:02+08:002024-05-25T19:26:02+08:00

使用splitstackshape包：

splitstackshape::cSplit(df, c("gene", "type"), sep = ";", 
                        direction = "long", type.convert = FALSE)

#     probe   gene   type
#   <char> <char> <char>
#1:      A  geneA   mRNA
#2:      B  geneB   mRNA
#3:      B  geneC  miRNA
#4:      C  geneD   mRNA
#5:      C  geneH  miRNA
#6:      C  geneI   mRNA
#7:      C  geneO  miRNA

0

如何在R中拆分data.table中的多个字段并相应地扩展行？[复制]

为什么要通过 where 子句中绑定的通用特征来约束单位类型（如 `where () : Trait<…>`）？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

如果 T 既不可构造、不可复制、也不可移动，那么我可以拥有 std::optional<T> 吗？

为什么我可以定义一个 constinit 的 std::string 实例？如果对象需要动态初始化，constinit 不是被禁止的吗？

如何分配以后放置的新“如同新”

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

如何在R中拆分data.table中的多个字段并相应地扩展行？[复制]

3 个回答

相关问题