Reorganize as letras e compare duas palavras

Question

αғsнιη

Asked: 2018-03-20 10:32:41 +0800 CST2018-03-20 10:32:41 +0800 CST 2018-03-20 10:32:41 +0800 CST

remover padrão/entradas duplicadas dentro de cada campo no arquivo CSV

772

Como removo entradas duplicadas em cada campo separado com a amostra abaixo como dados.

0x,9.4,,,#0,#UNIX#unix,#cli#L#فا#0#فا#0#L#SE#Cli#SE,#فارسی#فارسی#۱#1#١#1,bsh,#V & v

resultado esperado (exclua todos os duplicados, sem distinção entre maiúsculas e minúsculas, diferença em Unicode "persa #۱/árabe #١", ordem das entradas e qual entrada (ignorar maiúsculas e minúsculas) deve manter não importa aqui):

0x,9.4,,,#0,#unix,#cli#L#فا#0#SE,#فارسی#١#۱#1,bsh,#V & v

O padrão está neste formato #x, xsignifica qualquer coisa em um ou mais comprimentos de caracteres.

Tabela Unicode para diferenças de alfabeto/números dos idiomas persa/árabe

3 respostas

Voted

Gilles Quenot · Answer 1 · 2018-03-20T11:03:00+08:00

Best Answer

Gilles Quenot

2018-03-20T11:03:00+08:002018-03-20T11:03:00+08:00

Usando uma linha de comando perl em um shell (apenas algumas linhas) com um analisador csv adequado:

perl -CS -Mopen=":std,IN,OUT,IO,:encoding(utf8)" -MText::CSV -lne '
    BEGIN{
        our $csv = Text::CSV->new({ sep_char => "," });
        sub uniq { my %seen;  grep !$seen{lc $_}++, @_; }
    };
    $csv->parse($_) or die "parse error";
    print join ",", map { join "#", uniq split /#/ } $csv->fields();
' file.csv

Resultado :

0x,9.4,,,#0,#UNIX,#cli#L#فا#0#SE,#فارسی#۱#1#١,bsh,#V & v

Observação :

requer a instalação do Text::CSVmódulo perl: sudo apt-get install libtext-csv-perlpara debian e derivados

1

RomanPerekhrest · Answer 2 · 2018-03-20T12:03:19+08:00

RomanPerekhrest

2018-03-20T12:03:19+08:002018-03-20T12:03:19+08:00

Solução completa Python:

uniq_arabic_csv.pyroteiro:

#!/bin/python

import sys, re

csv_data = sys.stdin.read().strip()
result = []

for item in csv_data.split(','):
    matches = list(re.finditer(r'#[^#]+', item, re.U | re.I))
    if not matches or len(matches) == 1:
        result.append(item)
    else:
        s, res = set(), []
        for m in matches:
            m = m.group()
            if m.lower() not in s: res.append(m)
            s.add(m.lower())
        result.append(''.join(res))

result = ','.join(result)                    
print(result)

Uso:

s="0x,9.4,,,#0,#UNIX#unix,#cli#L#فا#0#فا#0#L#SE#Cli#SE,#فارسی#فارسی#۱#1#۱#1,bsh,#V & v"
python uniq_arabic_csv.py <<<"$s"

A saída:

0x,9.4,,,#0,#UNIX,#cli#L#فا#0#SE,#فارسی#۱#1,bsh,#V & v

1

αғsнιη · Answer 3 · 2018-03-20T14:04:05+08:00

αғsнιη

2018-03-20T14:04:05+08:002018-03-20T14:04:05+08:00

Eu codifico abaixo da solução simples awktambém:

awk -F, '{ i=0; comma=""; while (++i<=NF) {
    if ( split(tolower($i), arr, /#/)>1 ){ for(v in arr) !unq[arr[v]]++;printf comma;
        for (x in unq) {printf (x!="")?hash""x:""; hash="#"; delete unq[x]}}
    else {printf comma""$i; comma=","}}; print ""
}' infile.csv

0

remover padrão/entradas duplicadas dentro de cada campo no arquivo CSV

Resultado :

Observação :

Como exportar uma chave privada GPG e uma chave pública para um arquivo

ssh Não é possível negociar: "nenhuma cifra correspondente encontrada", está rejeitando o cbc

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

Como descarregar o módulo do kernel 'nvidia-drm'?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

remover padrão/entradas duplicadas dentro de cada campo no arquivo CSV

3 respostas

Resultado :

Observação :

relate perguntas