Obrigado por reservar um tempo para responder a esta pergunta.
Recentemente estive trabalhando com o Spark e li que ele considera uma partição do HDFS = uma partição no Spark. Com essa lógica, há muitos casos em que não podemos usar o HDFS como fonte. Portanto, se usarmos CSV ou qualquer outro formato baseado em arquivo para ler os dados, como é a partição, ou melhor, como esses dados são particionados, uma vez que não há particionamento explícito.