Eu leio e filtro dados, preciso contar como cada operação de filtro afeta o resultado. É possível misturar de alguma forma acumuladores de faísca ao usar a API Dataframe/Dataset?
Código de amostra:
sparkSession.read
.format("org.apache.spark.sql.delta.sources.DeltaDataSource")
.load(path)
// use spark accumulator to count records that passed filter
.where(col("ds") >= dateFromInclusive and col("ds") < dateToExclusive)
// same here
.where(col("origin").isin(origins)
Você pode usar count_if para contar vários filtros (e obter as contagens de uma só vez), mas não pode filtrar linhas simultaneamente com eles conforme seu exemplo de código.
exemplo da documentação da função SQL :