Obrigado por reservar um tempo para responder a esta pergunta.
Recentemente estive trabalhando com o Spark e li que ele considera uma partição do HDFS = uma partição no Spark. Com essa lógica, há muitos casos em que não podemos usar o HDFS como fonte. Portanto, se usarmos CSV ou qualquer outro formato baseado em arquivo para ler os dados, como é a partição, ou melhor, como esses dados são particionados, uma vez que não há particionamento explícito.
Quando você lê um arquivo CSV do spark, o particionamento é definido por esta configuração,
spark.sql.files.maxPartitionBytes
que é por padrão de acordo com [a documentação do spark] [1]134217728
então, por exemplo, se você definir
"spark.sql.files.maxPartitionBytes" ,"1024"
e ler um arquivo CSV de 1 MB, você terá 1000 partições [1]: https://spark.apache.org/docs/latest/sql-performance-tuning.html#other-configuration-options