Matthew提出的问题 -coding

Matthew

Asked: 2023-10-10 23:07:07 +0800 CST

Número de arquivos gerados pelo spark

Executando um código pyspark simples que está sendo executado em 1 driver (16 núcleos) e 2 nós de trabalho (total de 32 núcleos). Tenho dados de entrada no valor de 1 hora para dados de aproximadamente 33 GB de um único dia. Os dados de entrada também possuem uma coluna país e o número de países distintos nos dados é 968.

Estou escrevendo os dados particionados por data e país.

results.write.partitionBy("date","country").format("delta").save("<path>")

O estágio que está gravando no local de destino tem um total de 607 tarefas, com 32 tarefas em execução em paralelo [384/607 (32 em execução)].

Pelo meu entendimento,

spark grava 1 arquivo por partição
número de tarefas = número de partições
então número de tarefas = número de partições = número de arquivos

Pergunta - Aqui neste estágio que está gravando no local de destino (160/607 (32 em execução)) eu tenho um total de 607 tarefas, então não devo gravar apenas 607 arquivos. Em vez disso, em cada pasta data + país, foi gerado um número aleatório de arquivos.

Número de arquivos gerados pelo spark

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Matthew's questions