Por que esta composição da camada ZIO não é compilada?

Question

ashish.g

Asked: 2025-01-21 23:18:43 +0800 CST2025-01-21 23:18:43 +0800 CST 2025-01-21 23:18:43 +0800 CST

Como ler corretamente um arquivo CSV escapando a vírgula delimitadora colocada entre colchetes usando Apache Spark e Scala?

772

Tenho o seguinte CSV que é publicado por um terceiro com os valores para uma coluna específica contendo uma vírgula (por algum motivo inexplicável). Os valores para a coluna estão ausentes ou entre colchetes/aspas duplas, pois representam um intervalo.

A seguir está um desses registros do CSV:

A,B
xxxxxxxxx,"['05-01', '06-30']"
yyyyyyyyy,"['04-01', '04-30']"
zzzzzzzzz,

O culpado é a segunda coluna, como é óbvio. Existe uma maneira de analisar corretamente esse CSV no Apache Spark (Scala) para ter o seguinte dataframe:

+---+----------+------------------------+
|A             |B                       |
+---+-----------------------------------+
|xxxxxxxxx     |"['05-01', '06-30']"    |
|yyyyyyyyy     |"['04-01', '04-30']"    |
|zzzzzzzzz     |null                    |
+---+----------+------------------------+

1 respostas

Voted

Kashyap · Answer 1 · 2025-01-21T23:58:56+08:00

Best Answer

Kashyap

2025-01-21T23:58:56+08:002025-01-21T23:58:56+08:00

Os valores padrão de delimitere quoteopções permitem que você analise corretamente o arquivo csv fornecido:

scala> scala.io.Source.fromFile("source.csv").mkString
res2: String =
"A,B
xxxxxxxxx,"['05-01', '06-30']"
yyyyyyyyy,"['04-01', '04-30']"
zzzzzzzzz,
"

scala> val df = spark.read.option("header", "true").csv("source.csv")
df: org.apache.spark.sql.DataFrame = [A: string, B: string]

scala> df.show()
+---------+------------------+
|        A|                 B|
+---------+------------------+
|xxxxxxxxx|['05-01', '06-30']|
|yyyyyyyyy|['04-01', '04-30']|
|zzzzzzzzz|              NULL|
+---------+------------------+

scala>

NOTE que o valor para Bnão tem aspas duplas em volta de cada valor. Qual é a interpretação correta do conteúdo csv fornecido por formato csv .

Campos contendo quebras de linha (CRLF), aspas duplas e vírgulas devem ser colocados entre aspas duplas. Por exemplo:

"aaa","b CRLF bb","ccc" CRLF zzz,yyy,xxx

0

Como ler corretamente um arquivo CSV escapando a vírgula delimitadora colocada entre colchetes usando Apache Spark e Scala?

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Como ler corretamente um arquivo CSV escapando a vírgula delimitadora colocada entre colchetes usando Apache Spark e Scala?

1 respostas

relate perguntas