将复制活动的序列号添加到 Blob

Question

TOMC

Asked: 2024-11-08 00:43:53 +0800 CST2024-11-08 00:43:53 +0800 CST 2024-11-08 00:43:53 +0800 CST

在 R Sparklyr 中，base::cumsum() 不再与 dplyr::mutate_at() 配合使用

772

问题

我必须对分组和有序 (大) spark 数据框上的几列进行累计求和。我以前用 base::cumsum() 和 dplyr::mutate_at() 来做，效果很好。此会话不再有效信息：

会话信息（）

R version 4.4.1 (2024-06-14)
spark_version = "3.5.0"
sparklyr_1.8.4    dbplyr_2.4.0      dplyr_1.1.4

可重现的示例

library("dplyr"); library("sparklyr"); library("dbplyr")
spark_version = "3.5.0"
sc = spark_connect(master = "local", version = spark_version)

# --- copying mtcars data into spark for the example
sdf_mtcars = sdf_copy_to(sc = sc, x = mtcars, name = "sdf_mtcars", overwrite = TRUE)

sdf_mtcars %>% group_by(cyl) %>%
  window_order(disp) %>%
  mutate_at(.vars = 'mpg', .funs = cumsum) %>%
  ungroup() %>% 
  collect()

但它会产生错误：

Error in `mutate()`:
ℹ In argument: `mpg = .Primitive("cumsum")(mpg)`
Caused by error in `mutate_at()`:
! object 'mpg' not found

如果我使用 sum() 而不是 cumsum()，它工作正常。如果我这样做，它也可以正常工作：

mutate("mpg_cumulative" =  cumsum(mpg))

但我必须在向量内的几个命名列上执行此操作（例如：在我的示例中为 c('mpg')）

如果我这样做，它就可以正常工作：

mutate_at(.vars = 'mpg', .funs = ~ cumsum(.)) %>%

但是语法有点奇怪？

谢谢。

1 个回答

Voted

gabagool · Answer 1 · 2024-11-08T02:02:15+08:00

我正在使用 Databricks，因此设置略有不同，但它是 Spark 3.5.0。

library("dplyr"); library("sparklyr"); library("dbplyr")
sc <- sparklyr::spark_connect(method = "databricks")
# just example output
mtcars %>% arrange(disp) %>% select(mpg, disp, cyl, drat) %>% head(10)
                    mpg  disp cyl drat
Toyota Corolla 33.9  71.1   4 4.22
Honda Civic    30.4  75.7   4 4.93
Fiat 128       32.4  78.7   4 4.08
Fiat X1-9      27.3  79.0   4 4.08
Lotus Europa   30.4  95.1   4 3.77
Datsun 710     22.8 108.0   4 3.85
Toyota Corona  21.5 120.1   4 3.70
Porsche 914-2  26.0 120.3   4 4.43
Volvo 142E     21.4 121.0   4 4.11
Merc 230       22.8 140.8   4 3.92

现在来谈谈实际问题。按照@Limey 的建议，使用dplyr::across。

sdf_mtcars = sdf_copy_to(sc = sc, x = mtcars, name = "sdf_mtcars", overwrite = TRUE)

sdf_mtcars %>% 
  select(mpg, disp, cyl, drat) %>% # just to reduce output
  group_by(cyl) %>%
  window_order(disp) %>%
  mutate(across(c(mpg, drat), cumsum)) %>%
  ungroup() %>% 
  collect()

我也总是建议dplyr::show_query确保它能做你真正想要的事情：

sdf_mtcars %>% 
  select(mpg, disp, cyl, drat) %>% # just to reduce output
  group_by(cyl) %>%
  window_order(disp) %>%
  mutate(across(c(mpg, drat), cumsum)) %>%
  ungroup() %>% 
  dplyr::show_query()

<SQL>
SELECT
  SUM(`mpg`) OVER (PARTITION BY `cyl` ORDER BY `disp` ROWS UNBOUNDED PRECEDING) AS `mpg`,
  `disp`,
  `cyl`,
  SUM(`drat`) OVER (PARTITION BY `cyl` ORDER BY `disp` ROWS UNBOUNDED PRECEDING) AS `drat`
FROM `sdf_mtcars`

另外，如果你真的想使用mutate_at，你只需要使用tidyselect

sdf_mtcars %>% group_by(cyl) %>%
  window_order(disp) %>%
  mutate_at(.vars = vars(mpg, drat), .funs = cumsum) %>%
  ungroup() %>% 
  collect()

最后，这种语法~ cumsum(.)只是匿名函数的 tidyverse 风格，尽管从技术上讲它应该是.funs = ~ cumsum(.x)。

在 R Sparklyr 中，base::cumsum() 不再与 dplyr::mutate_at() 配合使用

问题

会话信息（）

可重现的示例

但它会产生错误：

为什么要通过 where 子句中绑定的通用特征来约束单位类型（如 `where () : Trait<…>`）？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

如果 T 既不可构造、不可复制、也不可移动，那么我可以拥有 std::optional<T> 吗？

为什么我可以定义一个 constinit 的 std::string 实例？如果对象需要动态初始化，constinit 不是被禁止的吗？

如何分配以后放置的新“如同新”

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

在 R Sparklyr 中，base::cumsum() 不再与 dplyr::mutate_at() 配合使用

问题

会话信息（）

可重现的示例

但它会产生错误：

1 个回答

相关问题