Tenho o seguinte CSV que é publicado por um terceiro com os valores para uma coluna específica contendo uma vírgula (por algum motivo inexplicável). Os valores para a coluna estão ausentes ou entre colchetes/aspas duplas, pois representam um intervalo.
A seguir está um desses registros do CSV:
A,B
xxxxxxxxx,"['05-01', '06-30']"
yyyyyyyyy,"['04-01', '04-30']"
zzzzzzzzz,
O culpado é a segunda coluna, como é óbvio. Existe uma maneira de analisar corretamente esse CSV no Apache Spark (Scala) para ter o seguinte dataframe:
+---+----------+------------------------+
|A |B |
+---+-----------------------------------+
|xxxxxxxxx |"['05-01', '06-30']" |
|yyyyyyyyy |"['04-01', '04-30']" |
|zzzzzzzzz |null |
+---+----------+------------------------+
Os valores padrão de
delimiter
equote
opções permitem que você analise corretamente o arquivo csv fornecido:NOTE que o valor para
B
não tem aspas duplas em volta de cada valor. Qual é a interpretação correta do conteúdo csv fornecido por formato csv .