将 CSV 读入 Spark DataFrame 的两种方法有何不同？

Question

Hashim Aziz

Asked: 2024-11-14 04:36:33 +0800 CST2024-11-14 04:36:33 +0800 CST 2024-11-14 04:36:33 +0800 CST

替换 CSV 文件列中的重复值

772

我有一个无标题的 CSV 文件，按第一列排序。当第二列和第三列相同时，我想将它们“折叠”为一列 - 即让最后一列留空。换句话说，这是：

0000001,11111,66666
0000002,12121,22222
0000003,33333,33333
0000004,74747,44444
0000005,12345,12345

...变成这样：

0000001,11111,66666
0000002,12121,22222
0000003,33333,
0000004,74747,44444
0000005,12345,

我尝试过各种排列组合grep和cut，但都无法奏效——我最接近的是cut -c 8-19 file.csv，它只是隔离了第 2 列和第 3 列。我觉得需要跨列执行此操作，并且需要删除值而不是整行，这使得它足够复杂，需要awk或sed，而我对这两者都不太了解，不知道如何处理它。

5 个回答

Voted

anubhava · Answer 1 · 2024-11-14T04:42:12+08:00

anubhava

2024-11-14T04:42:12+08:002024-11-14T04:42:12+08:00

这awk（对于任何发行版）都应该适合你：

awk 'BEGIN {FS=OFS=","} $2 == $3 {$3=""} 1' file

0000001,11111,66666
0000002,12121,22222
0000003,33333,
0000004,74747,44444
0000005,12345,

5

RavinderSingh13 · Answer 2 · 2024-11-14T06:50:58+08:00

RavinderSingh13

2024-11-14T06:50:58+08:002024-11-14T06:50:58+08:00

在 GNU 中，awk请使用您显示的示例尝试以下代码。使用match正则表达式函数 (^[^,]+,)([^,]+)(,)([^,]+)(.*$)，并利用其将匹配值保存到捕获组中的功能，以便以后根据需要进行检查和打印。

awk '
match($0,/(^[^,]+,)([^,]+)(,)([^,]+)(.*$)/,arr){
  if(arr[2]==arr[4]){ arr[4]=arr[3] }
  print arr[1] arr[2] arr[3] arr[4]
}
' Input_file

4

sseLtaH · Answer 3 · 2024-11-14T04:40:08+08:00

Best Answer

sseLtaH

2024-11-14T04:40:08+08:002024-11-14T04:40:08+08:00

使用sed

$ sed -E 's/([^,]*,([^,]*),)\2/\1/' input_file
0000001,11111,66666
0000002,12121,22222
0000003,33333,
0000004,74747,44444
0000005,12345,

2

potong · Answer 4 · 2024-11-14T07:00:01+08:00

potong

2024-11-14T07:00:01+08:002024-11-14T07:00:01+08:00

这可能对你有用（GNU sed）：

sed -E 's/(,.*)\1$/\1,/' file

模式匹配第二列和第三列并用第二列替换。

1

Daweo · Answer 5 · 2024-11-15T00:05:22+08:00

Daweo

2024-11-15T00:05:22+08:002024-11-15T00:05:22+08:00

我将利用 GNUAWK完成以下任务，让file.txt内容

0000001,11111,66666
0000002,12121,22222
0000003,33333,33333
0000004,74747,44444
0000005,12345,12345

然后

awk 'BEGIN{FS=OFS=","}{print $1,$2,$2==$3?"":$3}' file.txt

给出输出

0000001,11111,66666
0000002,12121,22222
0000003,33333,
0000004,74747,44444
0000005,12345,

解释：我告诉 GNU，AWK逗号既是字段分隔符（FS），又是输出字段分隔符（OFS），然后我使用所谓的三元运算符组成一行，条件是第二个字段等于第三个字段，如果为真，则值为空字符串，如果为假，则值为第三个字段内容。

（在 GNU Awk 5.0.1 中测试）

0

替换 CSV 文件列中的重复值

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

替换 CSV 文件列中的重复值

5 个回答

相关问题