为什么这个 ZIO 层组合无法编译？

Question

ashish.g

Asked: 2025-01-21 23:18:43 +0800 CST2025-01-21 23:18:43 +0800 CST 2025-01-21 23:18:43 +0800 CST

如何使用 Apache Spark 和 Scala 正确读取 CSV 文件并转义方括号内的分隔符逗号？

772

我有以下由第三方发布的 CSV 文件，其中特定列的值包含逗号（出于某些无法解释的原因）。该列的值要么不存在，要么括在方括号/双引号内，因为它表示一个范围。

以下是 CSV 中的一条记录：

A,B
xxxxxxxxx,"['05-01', '06-30']"
yyyyyyyyy,"['04-01', '04-30']"
zzzzzzzzz,

罪魁祸首显然是第二列。有没有办法在 Apache Spark（Scala）中正确解析此 CSV，以便获得以下数据框：

+---+----------+------------------------+
|A             |B                       |
+---+-----------------------------------+
|xxxxxxxxx     |"['05-01', '06-30']"    |
|yyyyyyyyy     |"['04-01', '04-30']"    |
|zzzzzzzzz     |null                    |
+---+----------+------------------------+

1 个回答

Voted

Kashyap · Answer 1 · 2025-01-21T23:58:56+08:00

Best Answer

Kashyap

2025-01-21T23:58:56+08:002025-01-21T23:58:56+08:00

和选项的默认值delimiterquote允许您正确解析给定的 csv：

scala> scala.io.Source.fromFile("source.csv").mkString
res2: String =
"A,B
xxxxxxxxx,"['05-01', '06-30']"
yyyyyyyyy,"['04-01', '04-30']"
zzzzzzzzz,
"

scala> val df = spark.read.option("header", "true").csv("source.csv")
df: org.apache.spark.sql.DataFrame = [A: string, B: string]

scala> df.show()
+---------+------------------+
|        A|                 B|
+---------+------------------+
|xxxxxxxxx|['05-01', '06-30']|
|yyyyyyyyy|['04-01', '04-30']|
|zzzzzzzzz|              NULL|
+---------+------------------+

scala>

请注意，的值B没有用双引号括住每个值。这是对每个csv 格式的给定 csv 内容的正确解释。

包含换行符 (CRLF)、双引号和逗号的字段应使用双引号括起来。例如：

“aaa”，“b CRLF bb”，“ccc” CRLF zzz，yyy，xxx

0

如何使用 Apache Spark 和 Scala 正确读取 CSV 文件并转义方括号内的分隔符逗号？

重新格式化数字，在固定位置插入分隔符

为什么 C++20 概念会导致循环约束错误，而老式的 SFINAE 不会？

VScode 自动卸载扩展的问题（Material 主题）

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

如何使用 Apache Spark 和 Scala 正确读取 CSV 文件并转义方括号内的分隔符逗号？

1 个回答

相关问题