如何使用以下示例作为数据删除每个单独字段中的重复条目。
0x,9.4,,,#0,#UNIX#unix,#cli#L#فا#0#فا#0#L#SE#Cli#SE,#فارسی#فارسی#۱#1#١#1,bsh,#V & v
预期输出(删除所有重复的,不区分大小写,Unicode“波斯语#۱
/阿拉伯语#١
”的差异,条目的顺序以及应该保留哪个条目(忽略大小写)在这里无关紧要):
0x,9.4,,,#0,#unix,#cli#L#فا#0#SE,#فارسی#١#۱#1,bsh,#V & v
模式采用这种格式#x
,x
表示一个或多个字符长度的任何内容。
在带有适当csv解析器的 shell 中使用perl命令行(只需几行):
输出 :
笔记 :
Text::CSV
perl 模块:sudo apt-get install libtext-csv-perl
适用于 debian 和衍生产品完整的
Python
解决方案:uniq_arabic_csv.py
脚本:用法:
输出:
我也在下面的简单解决方案中编码
awk
: