Estou me familiarizando com os conceitos básicos de Python, Spark e PySpark seguindo este tutorial Spark By Exemplos (entre outros no mesmo site). No início, eles fornecem três maneiras de ler o mesmo arquivo:
spark.read.csv("/tmp/resources/zipcodes.csv")
spark.read.format("csv") \
.load("/tmp/resources/zipcodes.csv")
spark.read.format("org.apache.spark.sql.csv") \
.load("/tmp/resources/zipcodes.csv")
Aqui, spark
está um objeto de class
pyspark.sql.session.SparkSession
. A lição diz que o 2º e o 3º comandos são alternativas ao 1º, mas para "nome da fonte de dados totalmente qualificado". Infelizmente, as strings de documentos no PySpark são extremamente espartanas. No entanto, caminhos totalmente qualificados são usados em todos os três exemplos, portanto a explicação dos spark.read.format
comandos parece muito incompleta.
Quais são as diferenças entre as chamadas de método? Parece-me estranho quecsv
seja necessário um método totalmente novo e dedicado para lidar especificamente com CSV - a menos que seja apenas um wrapper para oformat
método com conveniências específicas de CSV.
O que eu encontrei
Uma página completa que encontrei é esta página do SaturnCloud , mas estou intrigado com a explicação de que o format
método é mais genérico e mais lento. Não consigo imaginar que esse seja o caso se o csv
método for um wrapper - a menos que o ingeridor seja configurado de maneira altamente abaixo do ideal, com muito fluxo de controle por registro, por campo ou por caractere.
O mesmo site também se refere ao csv
método como uma "abreviação" para o arquivo
format("csv")
. Isso sugere que ele nem fornece nenhuma funcionalidade adicional que um wrapper possa fornecer e não deve ser nem um pouco mais lento. Portanto, o site é contraditório.
Esta página
refere-se ao csv
método como um "atalho" para format("csv")
. Novamente, isso dá a sensação de que se trata de um wrapper fino, mas isso não é consistente com a indicação do SaturnCloud de que pode haver diferenças de desempenho, nem com a implicação do Spark By Exemplos de que eles são para diferentes formas do nome da fonte de dados.
A questão sobre as diferenças já foi colocada como um comentário do Stack Overflow antes.
Vamos dar uma olhada no código-fonte para descobrir esse mistério! Presumo que você esteja no Spark v3.5.0, o mais recente no momento em que este post foi escrito.
Se dermos uma olhada no método
DataFrameReader.scala
decsv
, veremos o seguinte:Isso nos mostra que, de fato, fazer
spark.read.csv()
e fazerspark.read.format("csv").load()
fazem exatamente a mesma coisa. Não deve haver diferença no desempenho.E quanto a
spark.read.format("org.apache.spark.sql.csv").load()
?Eu nunca tinha visto isso antes, então decidi experimentar em um shell pyspark:
Isso não funciona, eu recebo um arquivo
ClassNotFoundException
.Depois de algumas pesquisas, encontrei este mapa no código-fonte, que essencialmente mapeia os nomes de fontes de dados totalmente qualificados para sua abreviação (o que temos feito até agora). A linha essencial é esta:
Então tentei isso em um shell Spark:
e funcionou!!
Conclusão
spark.read.csv()
espark.read.format("csv").load()
faça exatamente a mesma coisa, sendo o primeiro um invólucro muito fino em torno do últimoorg.apache.spark.sql.csv
não é o nome correto da fonte de dados totalmente qualificado para arquivos CSV: écom.databricks.spark.csv