AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / coding / 问题 / 77252446
Accepted
user2153235
user2153235
Asked: 2023-10-08 13:41:45 +0800 CST2023-10-08 13:41:45 +0800 CST 2023-10-08 13:41:45 +0800 CST

将 CSV 读入 Spark DataFrame 的两种方法有何不同?

  • 772

通过遵循此Spark 示例 教程 (以及同一站点上的其他教程),我逐渐熟悉了 Python、Spark 和 PySpark 的基础知识。一开始,他们提供了三种读取同一文件的方法:

spark.read.csv("/tmp/resources/zipcodes.csv")
spark.read.format("csv") \
                  .load("/tmp/resources/zipcodes.csv")
spark.read.format("org.apache.spark.sql.csv") \
                  .load("/tmp/resources/zipcodes.csv")

这里,spark是 类 的一个对象 pyspark.sql.session.SparkSession。该课程指出,第二个和第三个命令是第一个命令的替代命令,但用于“完全限定的数据源名称”。不幸的是,PySpark 中的文档字符串非常简洁。然而,所有三个示例都使用了完全限定路径,因此命令的解释spark.read.format 似乎非常不完整。

方法调用之间有什么区别?对我来说,需要一个全新的专用csv方法来专门处理 CSV,这似乎很奇怪——除非它只是format 具有 CSV 特定便利性的方法的包装器。

我发现了什么

我发现的一个内容丰富的页面是SaturnCloud 页面,但我对该format方法更通用且速度更慢的解释感到困惑。如果该方法是包装器,我看不到这种情况csv- 除非摄取器是以高度次优的方式设置的,并且在每个记录、每个字段或每个字符的基础上有大量控制流。

同一站点还将该csv方法称为 format("csv"). 这表明它甚至不提供包装器可能提供的任何附加功能,并且它根本不应该变慢。所以这个网站是自相矛盾的。

此页面 将该csv方法称为 的“快捷方式” format("csv")。同样,这给人一种感觉,它是一个薄包装器,但这与 SaturnCloud 的指示(可能存在性能差异)不一致,也不符合Spark By Examples的暗示(它们适用于不同形式的数据源名称)。

有关差异的问题之前已作为 Stack Overflow 评论提出 。

csv
  • 1 1 个回答
  • 26 Views

1 个回答

  • Voted
  1. Best Answer
    Koedlt
    2023-10-08T17:21:09+08:002023-10-08T17:21:09+08:00

    让我们通过源码来揭开这个谜团吧!我假设您使用的是 Spark v3.5.0,这是撰写本文时的最新版本。

    如果我们看一下DataFrameReader.scala的csv方法,我们会看到以下内容:

    @scala.annotation.varargs
    def csv(paths: String*): DataFrame = format("csv").load(paths : _*)
    

    这告诉我们,确实,做spark.read.csv()和做的作用spark.read.format("csv").load()是完全一样的。性能上应该没有区别。

    又怎样呢spark.read.format("org.apache.spark.sql.csv").load()?

    我以前从未见过这个,所以我决定在 pyspark shell 中尝试一下:

    >>> df = spark.read.format("org.apache.spark.sql.csv").load("random_file.csv")
    Traceback (most recent call last):
      File "<stdin>", line 1, in <module>
        ...
            at org.apache.spark.sql.errors.QueryExecutionErrors$.failedToFindDataSourceError(QueryExecutionErrors.scala:587)
            at org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:675)
        ...
    Caused by: java.lang.ClassNotFoundException: org.apache.spark.sql.csv.DefaultSource
        ...
    

    这不起作用,我得到一个ClassNotFoundException.

    经过一番挖掘,我在源代码中找到了这个 Map ,它本质上将完全限定的数据源名称映射到它们的简写(到目前为止我们一直在这样做)。最重要的一行是这一行:

    "com.databricks.spark.csv" -> csv,
    

    然后我在 Spark shell 中尝试了:

    >>> df1 = spark.read.format("com.databricks.spark.csv").load("random_file.csv")
    

    那行得通!

    结论

    • spark.read.csv()并spark.read.format("csv").load()做完全相同的事情,前者是后者的一层非常薄的包装纸
    • org.apache.spark.sql.csv不是 CSV 文件的正确完全限定数据源名称:它是com.databricks.spark.csv
    • 2

相关问题

  • 无法使用环境库运行 Julia 脚本

  • awk csv引用字段需要大写每个单词

  • 如何使用 terraform csvdecode 读取双引号字符串值?

  • BAT 文件 - 根据文件内容重命名多个 .csv 文件

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    使用 <font color="#xxx"> 突出显示 html 中的代码

    • 2 个回答
  • Marko Smith

    为什么在传递 {} 时重载解析更喜欢 std::nullptr_t 而不是类?

    • 1 个回答
  • Marko Smith

    您可以使用花括号初始化列表作为(默认)模板参数吗?

    • 2 个回答
  • Marko Smith

    为什么列表推导式在内部创建一个函数?

    • 1 个回答
  • Marko Smith

    我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

    • 1 个回答
  • Marko Smith

    java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

    • 3 个回答
  • Marko Smith

    为什么 'char -> int' 是提升,而 'char -> Short' 是转换(但不是提升)?

    • 4 个回答
  • Marko Smith

    为什么库中不调用全局变量的构造函数?

    • 1 个回答
  • Marko Smith

    std::common_reference_with 在元组上的行为不一致。哪个是对的?

    • 1 个回答
  • Marko Smith

    C++17 中 std::byte 只能按位运算?

    • 1 个回答
  • Martin Hope
    fbrereto 为什么在传递 {} 时重载解析更喜欢 std::nullptr_t 而不是类? 2023-12-21 00:31:04 +0800 CST
  • Martin Hope
    比尔盖子 您可以使用花括号初始化列表作为(默认)模板参数吗? 2023-12-17 10:02:06 +0800 CST
  • Martin Hope
    Amir reza Riahi 为什么列表推导式在内部创建一个函数? 2023-11-16 20:53:19 +0800 CST
  • Martin Hope
    Michael A fmt 格式 %H:%M:%S 不带小数 2023-11-11 01:13:05 +0800 CST
  • Martin Hope
    God I Hate Python C++20 的 std::views::filter 未正确过滤视图 2023-08-27 18:40:35 +0800 CST
  • Martin Hope
    LiDa Cute 为什么 'char -> int' 是提升,而 'char -> Short' 是转换(但不是提升)? 2023-08-24 20:46:59 +0800 CST
  • Martin Hope
    jabaa 为什么库中不调用全局变量的构造函数? 2023-08-18 07:15:20 +0800 CST
  • Martin Hope
    Panagiotis Syskakis std::common_reference_with 在元组上的行为不一致。哪个是对的? 2023-08-17 21:24:06 +0800 CST
  • Martin Hope
    Alex Guteniev 为什么编译器在这里错过矢量化? 2023-08-17 18:58:07 +0800 CST
  • Martin Hope
    wimalopaan C++17 中 std::byte 只能按位运算? 2023-08-17 17:13:58 +0800 CST

热门标签

python javascript c++ c# java typescript sql reactjs html

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve