AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / coding / Perguntas / 76936234
Accepted
Geoffrey
Geoffrey
Asked: 2023-08-20 01:09:57 +0800 CST2023-08-20 01:09:57 +0800 CST 2023-08-20 01:09:57 +0800 CST

Pyspark: Salve dataframe em vários arquivos parquet com tamanho específico de arquivo único

  • 772

Como posso salvar dataframes Pyspark em vários arquivos parquet com tamanho específico?

Exemplo: Meu dataframe usa 500GB em HDFS, cada arquivo tem 128MB. Quero salvá-lo em 250 arquivos parquet, cada arquivo tem 2 GB. Como posso arquivar isso?

apache-spark
  • 1 1 respostas
  • 22 Views

1 respostas

  • Voted
  1. Best Answer
    Ziya Mert Karakas
    2023-08-20T07:57:23+08:002023-08-20T07:57:23+08:00

    É sempre bom fazer uma pesquisa simples aqui se isso já foi perguntado ou respondido aqui, já consigo ver alguns:

    PySpark: Como especificar o tamanho do arquivo ao gravar arquivos em parquet?

    Grave dataframe pyspark em um número específico de arquivos parquet no total em todas as colunas de partição

    Para salvar um dataframe PySpark em vários arquivos Parquet com tamanho específico, você pode usar o método de repartição para dividir o dataframe no número desejado de partições e, em seguida, usar o método write com a opção partitionBy para salvar cada partição como um arquivo Parquet separado. Por exemplo, para salvar um dataframe em 250 arquivos Parquet, cada um com tamanho de 2 GB, você pode usar o seguinte código:

    df = df.repartition(250)
    df.write.partitionBy("partition_column").parquet("hdfs:///path//")
    

    substitua a partition_column pelo nome da coluna pela qual você deseja particionar. Isso organiza os arquivos de saída por essa coluna. partitionBy nesta instrução é opcional.

    Se você estiver reduzindo o tamanho da partição para um número maior que 250, poderá usar a coalescência para evitar o embaralhamento, mas a repartição é melhor para garantir a saída desejada

    • 0

relate perguntas

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    destaque o código em HTML usando <font color="#xxx">

    • 2 respostas
  • Marko Smith

    Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}?

    • 1 respostas
  • Marko Smith

    Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)?

    • 2 respostas
  • Marko Smith

    Por que as compreensões de lista criam uma função internamente?

    • 1 respostas
  • Marko Smith

    Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

    • 1 respostas
  • Marko Smith

    java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

    • 3 respostas
  • Marko Smith

    Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)?

    • 4 respostas
  • Marko Smith

    Por que o construtor de uma variável global não é chamado em uma biblioteca?

    • 1 respostas
  • Marko Smith

    Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto?

    • 1 respostas
  • Marko Smith

    Somente operações bit a bit para std::byte em C++ 17?

    • 1 respostas
  • Martin Hope
    fbrereto Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}? 2023-12-21 00:31:04 +0800 CST
  • Martin Hope
    比尔盖子 Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)? 2023-12-17 10:02:06 +0800 CST
  • Martin Hope
    Amir reza Riahi Por que as compreensões de lista criam uma função internamente? 2023-11-16 20:53:19 +0800 CST
  • Martin Hope
    Michael A formato fmt %H:%M:%S sem decimais 2023-11-11 01:13:05 +0800 CST
  • Martin Hope
    God I Hate Python std::views::filter do C++20 não filtrando a visualização corretamente 2023-08-27 18:40:35 +0800 CST
  • Martin Hope
    LiDa Cute Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)? 2023-08-24 20:46:59 +0800 CST
  • Martin Hope
    jabaa Por que o construtor de uma variável global não é chamado em uma biblioteca? 2023-08-18 07:15:20 +0800 CST
  • Martin Hope
    Panagiotis Syskakis Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto? 2023-08-17 21:24:06 +0800 CST
  • Martin Hope
    Alex Guteniev Por que os compiladores perdem a vetorização aqui? 2023-08-17 18:58:07 +0800 CST
  • Martin Hope
    wimalopaan Somente operações bit a bit para std::byte em C++ 17? 2023-08-17 17:13:58 +0800 CST

Hot tag

python javascript c++ c# java typescript sql reactjs html

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve