Grupo não dinâmico de colunas no SPARK SQL

Question

Pirvu Georgian

Asked: 2025-04-15 17:45:25 +0800 CST2025-04-15 17:45:25 +0800 CST 2025-04-15 17:45:25 +0800 CST

Execução de consulta adaptável Spark no Databricks com Coalesce

772

Algo que podemos perder como engenheiros quando falamos AQE - Adaptive Query Executionsobre Spark/Databricks:

Se você estiver usando coalesce()para reduzir partições, o AQE não afetará isso. Sem detecção de distorção. Sem reparticionamento. Sem otimização. Porque coalesce()não executa embaralhamento completo (como repartition()) - ele mescla partições existentes sem redistribuir. É assim que a distorção de dados pode aparecer silenciosamente coalesce()e interromper ou tornar seus trabalhos mais lentos. Achei a documentação um pouco confusa. O AQE intervirá após você fazer algo repartition()que acione um embaralhamento completo. Este entendimento está correto? A documentação parece pouco clara neste cenário.

1 respostas

Voted

Ged · Answer 1 · 2025-04-16T00:54:40+08:00

Best Answer

Ged

2025-04-16T00:54:40+08:002025-04-16T00:54:40+08:00

Sim, você está correto em sua afirmação/pergunta.

Coalesce(n)não resulta em um embaralhamento amplo/completo, por assim dizer — repartition(n)como você disse. É uma espécie de mesclagem.

Portanto, não há sinal para o Catalyst para otimização de tempo de execução para ver se AQEpode ser aplicado - já que não há embaralhamento completo a ser detectado, o que serve como uma otimização, condição precursora para invocar AQE. JOINs e groupBy()outros precursores.

NB: Há algum movimento e, portanto, redistribuição de dados com um coalesce(n).

1

Execução de consulta adaptável Spark no Databricks com Coalesce

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Execução de consulta adaptável Spark no Databricks com Coalesce

1 respostas

relate perguntas