AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / coding / Perguntas / 77252446
Accepted
user2153235
user2153235
Asked: 2023-10-08 13:41:45 +0800 CST2023-10-08 13:41:45 +0800 CST 2023-10-08 13:41:45 +0800 CST

Diferenças nas 2 maneiras de ler CSV no Spark DataFrame?

  • 772

Estou me familiarizando com os conceitos básicos de Python, Spark e PySpark seguindo este tutorial Spark By Exemplos (entre outros no mesmo site). No início, eles fornecem três maneiras de ler o mesmo arquivo:

spark.read.csv("/tmp/resources/zipcodes.csv")
spark.read.format("csv") \
                  .load("/tmp/resources/zipcodes.csv")
spark.read.format("org.apache.spark.sql.csv") \
                  .load("/tmp/resources/zipcodes.csv")

Aqui, sparkestá um objeto de class pyspark.sql.session.SparkSession. A lição diz que o 2º e o 3º comandos são alternativas ao 1º, mas para "nome da fonte de dados totalmente qualificado". Infelizmente, as strings de documentos no PySpark são extremamente espartanas. No entanto, caminhos totalmente qualificados são usados ​​em todos os três exemplos, portanto a explicação dos spark.read.format comandos parece muito incompleta.

Quais são as diferenças entre as chamadas de método? Parece-me estranho quecsvseja necessário um método totalmente novo e dedicado para lidar especificamente com CSV - a menos que seja apenas um wrapper para oformat método com conveniências específicas de CSV.

O que eu encontrei

Uma página completa que encontrei é esta página do SaturnCloud , mas estou intrigado com a explicação de que o formatmétodo é mais genérico e mais lento. Não consigo imaginar que esse seja o caso se o csvmétodo for um wrapper - a menos que o ingeridor seja configurado de maneira altamente abaixo do ideal, com muito fluxo de controle por registro, por campo ou por caractere.

O mesmo site também se refere ao csvmétodo como uma "abreviação" para o arquivo format("csv"). Isso sugere que ele nem fornece nenhuma funcionalidade adicional que um wrapper possa fornecer e não deve ser nem um pouco mais lento. Portanto, o site é contraditório.

Esta página refere-se ao csvmétodo como um "atalho" para format("csv"). Novamente, isso dá a sensação de que se trata de um wrapper fino, mas isso não é consistente com a indicação do SaturnCloud de que pode haver diferenças de desempenho, nem com a implicação do Spark By Exemplos de que eles são para diferentes formas do nome da fonte de dados.

A questão sobre as diferenças já foi colocada como um comentário do Stack Overflow antes.

csv
  • 1 1 respostas
  • 26 Views

1 respostas

  • Voted
  1. Best Answer
    Koedlt
    2023-10-08T17:21:09+08:002023-10-08T17:21:09+08:00

    Vamos dar uma olhada no código-fonte para descobrir esse mistério! Presumo que você esteja no Spark v3.5.0, o mais recente no momento em que este post foi escrito.

    Se dermos uma olhada no método DataFrameReader.scalade csv, veremos o seguinte:

    @scala.annotation.varargs
    def csv(paths: String*): DataFrame = format("csv").load(paths : _*)
    

    Isso nos mostra que, de fato, fazer spark.read.csv()e fazer spark.read.format("csv").load()fazem exatamente a mesma coisa. Não deve haver diferença no desempenho.

    E quanto a spark.read.format("org.apache.spark.sql.csv").load()?

    Eu nunca tinha visto isso antes, então decidi experimentar em um shell pyspark:

    >>> df = spark.read.format("org.apache.spark.sql.csv").load("random_file.csv")
    Traceback (most recent call last):
      File "<stdin>", line 1, in <module>
        ...
            at org.apache.spark.sql.errors.QueryExecutionErrors$.failedToFindDataSourceError(QueryExecutionErrors.scala:587)
            at org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:675)
        ...
    Caused by: java.lang.ClassNotFoundException: org.apache.spark.sql.csv.DefaultSource
        ...
    

    Isso não funciona, eu recebo um arquivo ClassNotFoundException.

    Depois de algumas pesquisas, encontrei este mapa no código-fonte, que essencialmente mapeia os nomes de fontes de dados totalmente qualificados para sua abreviação (o que temos feito até agora). A linha essencial é esta:

    "com.databricks.spark.csv" -> csv,
    

    Então tentei isso em um shell Spark:

    >>> df1 = spark.read.format("com.databricks.spark.csv").load("random_file.csv")
    

    e funcionou!!

    Conclusão

    • spark.read.csv()e spark.read.format("csv").load()faça exatamente a mesma coisa, sendo o primeiro um invólucro muito fino em torno do último
    • org.apache.spark.sql.csvnão é o nome correto da fonte de dados totalmente qualificado para arquivos CSV: écom.databricks.spark.csv
    • 2

relate perguntas

  • Não é possível executar o script Julia usando bibliotecas de ambiente

  • O campo citado do awk csv precisa colocar cada palavra em maiúscula

  • Como ler valores de string entre aspas duplas usando terraform csvdecode?

  • Arquivo BAT - Renomeie vários arquivos .csv de acordo com o conteúdo do arquivo

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    destaque o código em HTML usando <font color="#xxx">

    • 2 respostas
  • Marko Smith

    Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}?

    • 1 respostas
  • Marko Smith

    Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)?

    • 2 respostas
  • Marko Smith

    Por que as compreensões de lista criam uma função internamente?

    • 1 respostas
  • Marko Smith

    Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

    • 1 respostas
  • Marko Smith

    java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

    • 3 respostas
  • Marko Smith

    Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)?

    • 4 respostas
  • Marko Smith

    Por que o construtor de uma variável global não é chamado em uma biblioteca?

    • 1 respostas
  • Marko Smith

    Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto?

    • 1 respostas
  • Marko Smith

    Somente operações bit a bit para std::byte em C++ 17?

    • 1 respostas
  • Martin Hope
    fbrereto Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}? 2023-12-21 00:31:04 +0800 CST
  • Martin Hope
    比尔盖子 Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)? 2023-12-17 10:02:06 +0800 CST
  • Martin Hope
    Amir reza Riahi Por que as compreensões de lista criam uma função internamente? 2023-11-16 20:53:19 +0800 CST
  • Martin Hope
    Michael A formato fmt %H:%M:%S sem decimais 2023-11-11 01:13:05 +0800 CST
  • Martin Hope
    God I Hate Python std::views::filter do C++20 não filtrando a visualização corretamente 2023-08-27 18:40:35 +0800 CST
  • Martin Hope
    LiDa Cute Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)? 2023-08-24 20:46:59 +0800 CST
  • Martin Hope
    jabaa Por que o construtor de uma variável global não é chamado em uma biblioteca? 2023-08-18 07:15:20 +0800 CST
  • Martin Hope
    Panagiotis Syskakis Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto? 2023-08-17 21:24:06 +0800 CST
  • Martin Hope
    Alex Guteniev Por que os compiladores perdem a vetorização aqui? 2023-08-17 18:58:07 +0800 CST
  • Martin Hope
    wimalopaan Somente operações bit a bit para std::byte em C++ 17? 2023-08-17 17:13:58 +0800 CST

Hot tag

python javascript c++ c# java typescript sql reactjs html

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve