我正在尝试将以下CSV数据集导入 Excel。我正在使用文本导入向导来设置正确的分隔符。到目前为止,我使用了“;” 和“,”分隔符。
这是迄今为止的结果。数据集看起来很好,直到第 493 行。从那时起,数据从 2014 年到 2015 年发生了变化。不知何故,从那时起,数据的格式似乎发生了一些变化,产生了一个 CSV 文件其中列不再对齐。
以下是 Notepad++ 中发生的情况的快照:
我已经在这里问过这个问题,但到目前为止,这个问题还没有产生解决方案。我也考虑过接受这个超级用户问题中的建议,但我认为我不能在这种情况下应用它,因为要使用的字符组合是“ ”,\R(?="";")
“,并且 Notepad++在文档中似乎无法识别。
我现在正在考虑通过将以“ ”, “字符组合开头的行放在前一行来解决这个问题。
问题:我应该如何格式化这个 CSV 数据集,使所有以“ , ”开头的行都放在它们各自的前一行?(在 Notepad++ 或 Excel 中。)
在我看来,这是上面下载链接中原始文件的数据清理任务。我的答案是基于这个文件!这与您在此处的问题中显示的屏幕截图不同。
除了从第 493 行开始的不同格式之外,还有一些特殊字符,如长连字符和更多问题。请注意,数据集中还有控制字符(制表符),应将其删除。
请注意,CSV 文件不是 Windows 文件格式:
\n
= LF (Line Feed) → 在 Unix/Mac OS X 中用作换行符\r\n
= CR + LF → 在 Windows 中用作换行符请在开始之前复制您的文件,并尝试使用 Notepad++ 进行一些手动工作的快速而肮脏的解决方案。
(1)设置一个特殊字符供以后使用:
\"\n
\"#\n
(2)更换所有LF
\n
LEAVE EMPTY
(3) 重置干净的换行
\"#
\"\n
(4) 搜索行查找内容
^","
并通过删除换行符手动编辑少于 20 行。顺便说一句 - 我注意到这些记录是地理参考的。Excel 可能不太适合这个(见下面的 QGIS 截图)。