Correspondência de pares reversíveis em um arquivo CSV

Question

forthrin

Asked: 2018-04-03 04:27:45 +0800 CST2018-04-03 04:27:45 +0800 CST 2018-04-03 04:27:45 +0800 CST

Substituir caracteres UTF-8 por shell perl

772

Como faço perlpara substituir corretamente o caractere UTF-8 de um shell?

Os exemplos usam stdin, mas preciso de algo que funcione perl ... filetambém.

Isto é o que eu espero:

$ echo ABCæøåDEF | perl -CS -pe "s/([æøå])/[\\1]/g"
ABC[æ][ø][å]DEF

Isto é o que eu recebo:

$ echo ABCæøåDEF | perl -CS -pe "s/([æøå])/[\\1]/g"
ABCæøåDEF

Substituir os caracteres Unicode por ASCII funciona instantaneamente:

$ echo ABC123DEF | perl -CS -pe "s/([123])/[\\1]/g"
ABC[1][2][3]DEF

Meu ambiente:

perl 5.18.2
Bash 3.2.57
LC_ALL=en_US.UTF-8
LANG=en_US.UTF-8

3 respostas

Voted

Gilles Quenot · Answer 1 · 2018-04-03T04:54:45+08:00

Best Answer

Gilles Quenot

2018-04-03T04:54:45+08:002018-04-03T04:54:45+08:00

Usa isto :

 $ echo 'ABCæøåDEF' |
    perl -CSD -Mutf8 -pe 's/([æøå])/[$1]/g'

Funciona também para arquivos

Resultado :

ABC[æ][ø][å]DEF

Observação :

substituições: \\1é para awk , \1é para sed e em perl usamos$1
verifique se perldoc perlrunhá -CSDtruques utf8

8

haukex · Answer 2 · 2018-04-03T10:21:28+08:00

Sua entrada:

$ cat input.txt 
ABCæøåDEF
$ hexdump -C input.txt 
00000000  41 42 43 c3 a6 c3 b8 c3  a5 44 45 46 0a           |ABC......DEF.|
0000000d

Uma boa maneira de IMO é a -Copção mais utf8:

$ perl -CSD -Mutf8 -pe 's/([æøå])/[$1]/g' input.txt 
ABC[æ][ø][å]DEF
$ cat input.txt | perl -CSD -Mutf8 -pe 's/([æøå])/[$1]/g'
ABC[æ][ø][å]DEF

Se você não quiser usar UTF-8 na linha de comando, sempre poderá escrever seu código Perl em ASCII simples e usar escapes como \xAB, \x{ABCD}ou em Perls mais recentes \N{U+ABCD}ou \N{CHARNAME}:

$ perl -CSD -pe 's/([\xE6\xF8\xE5])/[$1]/g' input.txt 
ABC[æ][ø][å]DEF
$ cat input.txt | perl -CSD -pe 's/([\xE6\xF8\xE5])/[$1]/g'
ABC[æ][ø][å]DEF

Este está ficando um pouco criativo: @ARGVserá interpretado como UTF-8, então você pode manter seu código-fonte como ASCII e passar os caracteres UTF-8 por meio de um argumento de linha de comando (não necessariamente a melhor solução, apenas mostrando como você pode fazer uso da -CAopção):

$ perl -CSDA -pe 'BEGIN{$p=shift;} s/($p)/[$1]/g' '[æøå]' input.txt 
ABC[æ][ø][å]DEF
$ cat input.txt | perl -CSDA -pe 'BEGIN{$p=shift;} s/($p)/[$1]/g' '[æøå]'
ABC[æ][ø][å]DEF

Ou, claro, você sempre pode transformar o oneliner em um script real, onde você pode

use warnings;
use 5.012;
use utf8;
use open qw/:std :encoding(UTF-8)/;
use charnames qw/:full :short/;

Leitura adicional: perlunitut , perlunifaq , perluniintro , perlunicode , perlunicook .

Porno Nacionais · Answer 3 · 2018-04-03T10:26:52+08:00

Porno Nacionais

2018-04-03T10:26:52+08:002018-04-03T10:26:52+08:00

$ echo 'ABCæøåDEF' | perl -CS -Mutf8 -pe 's/([æøå])/[$1]/g'

-2

Substituir caracteres UTF-8 por shell perl

Usa isto :

Resultado :

Observação :

Como exportar uma chave privada GPG e uma chave pública para um arquivo

ssh Não é possível negociar: "nenhuma cifra correspondente encontrada", está rejeitando o cbc

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

Como descarregar o módulo do kernel 'nvidia-drm'?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Substituir caracteres UTF-8 por shell perl

3 respostas

Usa isto :

Resultado :

Observação :

relate perguntas