Capacytron

Asked: 2024-05-29 20:21:40 +0800 CST2024-05-29 20:21:40 +0800 CST 2024-05-29 20:21:40 +0800 CST

É possível usar a API Spark Dataframe/Dataset com acumuladores?

Eu leio e filtro dados, preciso contar como cada operação de filtro afeta o resultado. É possível misturar de alguma forma acumuladores de faísca ao usar a API Dataframe/Dataset?

Código de amostra:

sparkSession.read
  .format("org.apache.spark.sql.delta.sources.DeltaDataSource")
  .load(path)
  // use spark accumulator to count records that passed filter 
  .where(col("ds") >= dateFromInclusive and col("ds") < dateToExclusive)
  // same here
  .where(col("origin").isin(origins)

1 respostas

Voted

Best Answer

Chris
2024-05-29T21:37:15+08:002024-05-29T21:37:15+08:00
Você pode usar count_if para contar vários filtros (e obter as contagens de uma só vez), mas não pode filtrar linhas simultaneamente com eles conforme seu exemplo de código.

exemplo da documentação da função SQL :

> SELECT count_if(col % 2 = 0) FROM VALUES (NULL), (0), (1), (2), (3) AS tab(col); 2 > SELECT count_if(col IS NULL) FROM VALUES (NULL), (0), (1), (2), (3) AS tab(col); 1
1

É possível usar a API Spark Dataframe/Dataset com acumuladores?

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

É possível usar a API Spark Dataframe/Dataset com acumuladores?

1 respostas

relate perguntas