Capacytron提出的问题 -coding

Capacytron

Asked: 2024-05-29 20:21:40 +0800 CST

可以将 Spark Dataframe/Dataset api 与累加器一起使用吗？

5

我读取并过滤数据，需要计算每个过滤操作如何影响结果。使用 Dataframe/Dataset api 时是否可以以某种方式混合 Spark 累加器？

示例代码：

sparkSession.read
  .format("org.apache.spark.sql.delta.sources.DeltaDataSource")
  .load(path)
  // use spark accumulator to count records that passed filter 
  .where(col("ds") >= dateFromInclusive and col("ds") < dateToExclusive)
  // same here
  .where(col("origin").isin(origins)

Web Analytics