Como removo entradas duplicadas em cada campo separado com a amostra abaixo como dados.
0x,9.4,,,#0,#UNIX#unix,#cli#L#فا#0#فا#0#L#SE#Cli#SE,#فارسی#فارسی#۱#1#١#1,bsh,#V & v
resultado esperado (exclua todos os duplicados, sem distinção entre maiúsculas e minúsculas, diferença em Unicode "persa #۱
/árabe #١
", ordem das entradas e qual entrada (ignorar maiúsculas e minúsculas) deve manter não importa aqui):
0x,9.4,,,#0,#unix,#cli#L#فا#0#SE,#فارسی#١#۱#1,bsh,#V & v
O padrão está neste formato #x
, x
significa qualquer coisa em um ou mais comprimentos de caracteres.
Tabela Unicode para diferenças de alfabeto/números dos idiomas persa/árabe
Usando uma linha de comando perl em um shell (apenas algumas linhas) com um analisador csv adequado:
Resultado :
Observação :
Text::CSV
módulo perl:sudo apt-get install libtext-csv-perl
para debian e derivadosSolução completa
Python
:uniq_arabic_csv.py
roteiro:Uso:
A saída:
Eu codifico abaixo da solução simples
awk
também: