AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / coding / Perguntas / 77266953
Accepted
Matthew
Matthew
Asked: 2023-10-10 23:07:07 +0800 CST2023-10-10 23:07:07 +0800 CST 2023-10-10 23:07:07 +0800 CST

Número de arquivos gerados pelo spark

  • 772

Executando um código pyspark simples que está sendo executado em 1 driver (16 núcleos) e 2 nós de trabalho (total de 32 núcleos). Tenho dados de entrada no valor de 1 hora para dados de aproximadamente 33 GB de um único dia. Os dados de entrada também possuem uma coluna país e o número de países distintos nos dados é 968.

Estou escrevendo os dados particionados por data e país.

results.write.partitionBy("date","country").format("delta").save("<path>")

O estágio que está gravando no local de destino tem um total de 607 tarefas, com 32 tarefas em execução em paralelo [384/607 (32 em execução)].

Pelo meu entendimento,

  • spark grava 1 arquivo por partição
  • número de tarefas = número de partições
  • então número de tarefas = número de partições = número de arquivos

Pergunta - Aqui neste estágio que está gravando no local de destino (160/607 (32 em execução)) eu tenho um total de 607 tarefas, então não devo gravar apenas 607 arquivos. Em vez disso, em cada pasta data + país, foi gerado um número aleatório de arquivos.

apache-spark
  • 2 2 respostas
  • 20 Views

2 respostas

  • Voted
  1. Best Answer
    Kashyap
    2023-10-11T00:17:10+08:002023-10-11T00:17:10+08:00

    Acabei de notar que você está usando deltaformat. Esse é um jogo totalmente diferente de "faísca".

    • Se você estiver usando DBR (Databricks Runtime): o DBR fornece muitos parâmetros ajustáveis ​​e o número de arquivos dependeria dos valores desses parâmetros. Por exemplo delta.targetFileSize,delta.tuneFileSizesForRewrites
    • Se você estiver usando OSS (código aberto) delta.io: é diferente de DBR.

    Delta é um formato gerenciado/de nível superior. Por exemplo, ele mantém o histórico, permite pular dados, permiteOPTIMIZE combinar arquivos parquet menores subjacentes em arquivos maiores e muito mais. Para conseguir tudo isso, ele manipula muitos arquivos de metadados, além de arquivos parquet nos bastidores.

    deltaO formato é MUITO diferente dos formatos Vanilla Spark, como csv/parquet/etc. e de forma alguma comparável.


    spark grava 1 arquivo por partição

    Por padrão: Sim.

    Em geral: Não. A afirmação correta é que o spark grava pelo menos 1 arquivo por partição.

    Um valor diferente de zero para spark.sql.files.maxRecordsPerFile(Número máximo de registros a serem gravados em um único arquivo. Se esse valor for zero ou negativo, não há limite) pode levar a uma contagem de arquivos maior que a contagem de partições.

    Observe também que se você estiver lendo de alguma fonte (em vez de criar o dataframe programaticamente, digamos, usando .repartition(N)), certas configurações (por exemplo spark.sql.files.maxPartitionBytes) podem afetar quantas partições são criadas pelo leitor, o que pode não ser igual ao número de partições.

    Portanto, spark.read.csv('path-to-csvs-with-10-partitions').write.csv('output')pode produzir mais de 10 partições no formato output.


    Uma maneira fácil de entender a relação entre o número de partições e o número de arquivos com os quais você pode escrever o dataframe paritionBy().

    >>> df = spark.createDataFrame([(i, str(i)) for i in range(1,4)], schema='k: int, v: string')
    >>> df.show()
    +---+---+
    |  k|  v|
    +---+---+
    |  1|  1|
    |  2|  2|
    |  3|  3|
    +---+---+
    
    >>> df.write.partitionBy('k').parquet('out', mode='overwrite')
    >>> 
    

    produz:

    kash@ub$ tree ./out
    ./out
    ├── k=1
    │   └── part-00001-f9992c95-121a-4d23-9548-762eced47a5d.c000.snappy.parquet
    ├── k=2
    │   └── part-00002-f9992c95-121a-4d23-9548-762eced47a5d.c000.snappy.parquet
    ├── k=3
    │   └── part-00003-f9992c95-121a-4d23-9548-762eced47a5d.c000.snappy.parquet
    └── _SUCCESS
    
    3 directories, 4 files
    kash@ub$ 
    

    Ver:

    • https://spark.apache.org/docs/latest/configuration.html#runtime-sql-configuration
    • Como você controla o tamanho do arquivo de saída?
    • faísca grava no disco com N arquivos com menos de N partições
    • 1
  2. Aspa
    2023-10-10T23:41:58+08:002023-10-10T23:41:58+08:00

    Talvez a soma do número de arquivos em cada pasta seja 607?

    • 0

relate perguntas

  • Transformação PySpark Dataframe de_json

  • Mostrar as opções definidas em um leitor Spark DataFrame

  • Pyspark: Salve dataframe em vários arquivos parquet com tamanho específico de arquivo único

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    destaque o código em HTML usando <font color="#xxx">

    • 2 respostas
  • Marko Smith

    Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}?

    • 1 respostas
  • Marko Smith

    Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)?

    • 2 respostas
  • Marko Smith

    Por que as compreensões de lista criam uma função internamente?

    • 1 respostas
  • Marko Smith

    Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

    • 1 respostas
  • Marko Smith

    java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

    • 3 respostas
  • Marko Smith

    Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)?

    • 4 respostas
  • Marko Smith

    Por que o construtor de uma variável global não é chamado em uma biblioteca?

    • 1 respostas
  • Marko Smith

    Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto?

    • 1 respostas
  • Marko Smith

    Somente operações bit a bit para std::byte em C++ 17?

    • 1 respostas
  • Martin Hope
    fbrereto Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}? 2023-12-21 00:31:04 +0800 CST
  • Martin Hope
    比尔盖子 Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)? 2023-12-17 10:02:06 +0800 CST
  • Martin Hope
    Amir reza Riahi Por que as compreensões de lista criam uma função internamente? 2023-11-16 20:53:19 +0800 CST
  • Martin Hope
    Michael A formato fmt %H:%M:%S sem decimais 2023-11-11 01:13:05 +0800 CST
  • Martin Hope
    God I Hate Python std::views::filter do C++20 não filtrando a visualização corretamente 2023-08-27 18:40:35 +0800 CST
  • Martin Hope
    LiDa Cute Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)? 2023-08-24 20:46:59 +0800 CST
  • Martin Hope
    jabaa Por que o construtor de uma variável global não é chamado em uma biblioteca? 2023-08-18 07:15:20 +0800 CST
  • Martin Hope
    Panagiotis Syskakis Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto? 2023-08-17 21:24:06 +0800 CST
  • Martin Hope
    Alex Guteniev Por que os compiladores perdem a vetorização aqui? 2023-08-17 18:58:07 +0800 CST
  • Martin Hope
    wimalopaan Somente operações bit a bit para std::byte em C++ 17? 2023-08-17 17:13:58 +0800 CST

Hot tag

python javascript c++ c# java typescript sql reactjs html

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve