Como posso salvar dataframes Pyspark em vários arquivos parquet com tamanho específico?
Exemplo: Meu dataframe usa 500GB em HDFS, cada arquivo tem 128MB. Quero salvá-lo em 250 arquivos parquet, cada arquivo tem 2 GB. Como posso arquivar isso?
Como posso salvar dataframes Pyspark em vários arquivos parquet com tamanho específico?
Exemplo: Meu dataframe usa 500GB em HDFS, cada arquivo tem 128MB. Quero salvá-lo em 250 arquivos parquet, cada arquivo tem 2 GB. Como posso arquivar isso?