将复制活动的序列号添加到 Blob

Question

user1675107

Asked: 2024-09-27 14:06:11 +0800 CST2024-09-27 14:06:11 +0800 CST 2024-09-27 14:06:11 +0800 CST

是否有一个 R 函数可以将 data.frame 的两列元素配对以创建新的 data.frame

772

我在 R 中的一个对象中存储了几千行这样的数据。我想通过配对下面 df 中的两列 ($exonStarts 和 $exonEnds) 中的元素来创建一个新的 df2

df <- structure(list(bin = c(0L, 0L, 0L, 0L, 0L, 0L), name = c("XM_011541469.2", 
"XM_017001276.2", "XM_011541467.2", "NM_001276352.2", "NM_001276351.2", 
"XM_011541465.3"), chr = c("chr1", "chr1", "chr1", "chr1", "chr1", 
"chr1"), strand = c("-", "-", "-", "-", "-", "-"), txStart = c(67092164L, 
67092164L, 67092164L, 67092164L, 67092164L, 67092164L), txEnd = c(67109072L, 
67131227L, 67131227L, 67134970L, 67134970L, 67134970L), cdsStart = c(67093004L, 
67093004L, 67093004L, 67093579L, 67093004L, 67093004L), cdsEnd = c(67103382L, 
67127240L, 67127240L, 67127240L, 67127240L, 67127240L), exonCount = c(5L, 
9L, 9L, 9L, 8L, 9L), exonStarts = c("67092164,67095234,67096251,67103237,67109028,", 
"67092164,67095234,67096251,67103237,67111576,67115351,67125751,67127165,67131141,", 
"67092164,67095234,67096251,67103237,67111576,67115351,67125751,67127165,67131141,", 
"67092164,67096251,67103237,67111576,67115351,67125751,67127165,67131141,67134929,", 
"67092164,67095234,67096251,67115351,67125751,67127165,67131141,67134929,", 
"67092164,67095234,67096251,67103237,67111576,67115351,67125751,67127165,67134929,"
), exonEnds = c("67093604,67095421,67096321,67103382,67109072,", 
"67093604,67095421,67096321,67103382,67111644,67115464,67125909,67127257,67131227,", 
"67093604,67095421,67096321,67103343,67111644,67115464,67125909,67127257,67131227,", 
"67093604,67096321,67103382,67111644,67115464,67125909,67127257,67131227,67134970,", 
"67093604,67095421,67096321,67115464,67125909,67127257,67131227,67134970,", 
"67093604,67095421,67096321,67103382,67111644,67115464,67125909,67127257,67134970,"
), score = c(0L, 0L, 0L, 0L, 0L, 0L), gene = c("C1orf141", "C1orf141", 
"C1orf141", "C1orf141", "C1orf141", "C1orf141"), cdsStartStat = c("cmpl", 
"cmpl", "cmpl", "cmpl", "cmpl", "cmpl"), cdsEndStat = c("cmpl", 
"cmpl", "cmpl", "cmpl", "cmpl", "cmpl"), exonFrames = c("0,2,1,0,-1,", 
"0,2,1,0,1,2,0,0,-1,", "0,2,1,0,1,2,0,0,-1,", "2,1,0,1,2,0,0,-1,-1,", 
"0,2,1,2,0,0,-1,-1,", "0,2,1,0,1,2,0,0,-1,")), row.names = c(NA, 
6L), class = "data.frame")

产生如下所示的输出。输入 df 的第一行应通过将 $exonStart 的每个元素与 $exonEnd 的每个元素进行配对（元素计数将相同并存在于 $exonCount 列中），以下面的格式产生 5 行 df2。

$chr    $exonStart  $exonEnd
chr1    67092164    67093604
chr1    67095234    67095421
chr1    67096251    67096321
chr1    67103237    67103382
chr1    67109028    67109072

这需要迭代输入 df 的所有行并将所有结果合并到 df2 中。因此，df2 中总共会有sum(object$exonCount)行。

我知道这里有某种strsplit函数可以拆分 $exonStarts 和 $exonEnds，然后将它们合并。也许有一个apply函数可以对所有行执行此操作？我首先尝试了类似这样的方法

map2(unlist(strsplit(df$exonStarts[1], ",")), unlist(strsplit(dft$exonEnds[1], ",")), c)

生成配对元素的列表

[[1]]
[1] "67092164" "67093604"

[[2]]
[1] "67095234" "67095421"

[[3]]
[1] "67096251" "67096321"

[[4]]
[1] "67103237" "67103382"

[[5]]
[1] "67109028" "67109072"

但我不知道接下来该怎么做。任何帮助我都会很感激。

2 个回答

Voted

score 2 · Answer 1 · 2024-09-27T14:26:10+08:00

您可以separate_longer_delim使用tidyr

library(tidyr)
library(dplyr)

select(df, chr, exonStarts, exonEnds) %>%
  separate_longer_delim(c(exonStarts, exonEnds), delim=",")

结果如下（仅显示前 10 行）：

    chr exonStarts exonEnds
1  chr1   67092164 67093604
2  chr1   67095234 67095421
3  chr1   67096251 67096321
4  chr1   67103237 67103382
5  chr1   67109028 67109072
6  chr1                    
7  chr1   67092164 67093604
8  chr1   67095234 67095421
9  chr1   67096251 67096321
10 chr1   67103237 67103382

空行是由于原始列中的尾随逗号造成的，可以使用轻松删除filter。如果这样做，您将看到剩余 49 行，与相同sum(df$exonCount)。

正如@TarJae 提到的，每列中的项目数必须相等，否则会导致错误。想必您确信这种情况不可能发生。

df$exonEnds[1] <- "67093604,67095421,67096321,67103382,"

select(df, chr, exonStarts, exonEnds) %>%
  separate_longer_delim(c(exonStarts, exonEnds), delim=",")

#Error in `separate_longer_delim()`:
#! In row 1, can't recycle input of size 6 to size 5.
#Run `rlang::last_trace()` to see where the error occurred.

使用您的方法时您还会遇到错误strsplit。

Friede · Answer 2 · 2024-09-27T16:42:47+08:00

在 R 库中，我们可以这样做

f = \(chr, split, ...) {
  stopifnot(is.character(chr))
  l = strsplit(chr, split, ...)
  # caution, this pads NA's to the end, if shorter than max.
  l = lapply(l, `length<-`, max(lengths(l))) 
  unlist(l, recursive = FALSE, use.names = FALSE)
}

（对于其他应用程序，我们需要修改最后一行f()。）

应用：

> lapply(df[c("exonStarts", "exonEnds")], f, split = ",") |> 
+   list2DF() |>
+   head()
  exonStarts exonEnds
1   67092164 67093604
2   67095234 67095421
3   67096251 67096321
4   67103237 67103382
5   67109028 67109072
6       <NA>     <NA>

注意。这种方法的缺点是，如果长度不是最大，则分别在-split行或的NA末尾填充 s 。换句话说，它强烈地假设缺失数据（如果存在）位于每行的末尾。只要您不携带包含此类信息的数据，这种方法可能就很合适。","exonStartsexonEnds

袖珍的：

f = \(chr, split, ...) unlist(lapply(l <- strsplit(chr, split, ...), `length<-`, max(lengths(l))))
list2DF(lapply(df[c("exonStarts", "exonEnds")], f, split = ","))

是否有一个 R 函数可以将 data.frame 的两列元素配对以创建新的 data.frame

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

如果 T 既不可构造、不可复制、也不可移动，那么我可以拥有 std::optional<T> 吗？

为什么我可以定义一个 constinit 的 std::string 实例？如果对象需要动态初始化，constinit 不是被禁止的吗？

如何分配以后放置的新“如同新”

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

将 NULL 和 nullptr 传递给模板参数有什么区别？

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

是否有一个 R 函数可以将 data.frame 的两列元素配对以创建新的 data.frame

2 个回答

相关问题