Capacytron

Asked: 2024-05-29 20:21:40 +0800 CST2024-05-29 20:21:40 +0800 CST 2024-05-29 20:21:40 +0800 CST

可以将 Spark Dataframe/Dataset api 与累加器一起使用吗？

我读取并过滤数据，需要计算每个过滤操作如何影响结果。使用 Dataframe/Dataset api 时是否可以以某种方式混合 Spark 累加器？

示例代码：

sparkSession.read
  .format("org.apache.spark.sql.delta.sources.DeltaDataSource")
  .load(path)
  // use spark accumulator to count records that passed filter 
  .where(col("ds") >= dateFromInclusive and col("ds") < dateToExclusive)
  // same here
  .where(col("origin").isin(origins)

1 个回答

Voted

Best Answer

Chris
2024-05-29T21:37:15+08:002024-05-29T21:37:15+08:00
您可以使用 count_if 对多个过滤器进行计数（并在一次传递中获取计数），但不能按照代码示例同时使用它们过滤行。

Sql 函数文档中的示例：

> SELECT count_if(col % 2 = 0) FROM VALUES (NULL), (0), (1), (2), (3) AS tab(col); 2 > SELECT count_if(col IS NULL) FROM VALUES (NULL), (0), (1), (2), (3) AS tab(col); 1
1

可以将 Spark Dataframe/Dataset api 与累加器一起使用吗？

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

可以将 Spark Dataframe/Dataset api 与累加器一起使用吗？

1 个回答

相关问题