我有以下由第三方发布的 CSV 文件,其中特定列的值包含逗号(出于某些无法解释的原因)。该列的值要么不存在,要么括在方括号/双引号内,因为它表示一个范围。
以下是 CSV 中的一条记录:
A,B
xxxxxxxxx,"['05-01', '06-30']"
yyyyyyyyy,"['04-01', '04-30']"
zzzzzzzzz,
罪魁祸首显然是第二列。有没有办法在 Apache Spark(Scala)中正确解析此 CSV,以便获得以下数据框:
+---+----------+------------------------+
|A |B |
+---+-----------------------------------+
|xxxxxxxxx |"['05-01', '06-30']" |
|yyyyyyyyy |"['04-01', '04-30']" |
|zzzzzzzzz |null |
+---+----------+------------------------+
和选项的默认值
delimiter
quote
允许您正确解析给定的 csv:请注意,的值
B
没有用双引号括住每个值。这是对每个csv 格式的给定 csv 内容的正确解释。