Qual é o caminho certo para codificar em base64 um arquivo binário no CentOS 7?

Question

malat

Asked: 2024-03-01 16:18:11 +0800 CST2024-03-01 16:18:11 +0800 CST 2024-03-01 16:18:11 +0800 CST

Como posso converter caracteres de largura total em caracteres de meia largura (e vice-versa)?

772

Aqui está o meu problema simples: como posso converter meia largura em largura total na linha de comando. Achei que isso estaria embutido na minha iconvlinha de comando, mas não encontrei nada aqui:

$ iconv  -l | grep -i full
-> nothing
$ iconv  -l | grep -i half
-> nothing

A entrada típica seria:

$ echo -n "Ａb９８７６５４３２１０" | iconv -f utf8 -t utf16be | hexdump -C
00000000  ff 21 00 62 ff 19 ff 18  ff 17 ff 16 ff 15 ff 14  |.!.b............|
00000010  ff 13 ff 12 ff 11 ff 10                           |........|
00000018

1 respostas

Voted

Stéphane Chazelas · Answer 1 · 2024-03-01T16:49:04+08:00

Se você tiver o uconvutilitário das ferramentas ICU ( icu-devtoolspacote em sistemas operacionais baseados em Debian):

$ echo 'Ａb９８７６５４３２１０' | uconv -x Fullwidth-Halfwidth
Ab9876543210

(cuidado, ele também converte caracteres que normalmente têm largura total, como os dos scripts coreano ou japonês, em sua representação de meia largura).

Mude para Halfwidth-Fullwidthpara o inverso.

Caso contrário, e você estiver interessado apenas em converter as variantes de largura total dos caracteres imprimíveis ASCII:

$ echo 'Ａb９８７６５４３２１０' | perl -C -pe 'y/\x{ff01}-\x{ff5e}/!-~/'
Ab9876543210

Ou também convertendo U+3000 (espaço ideográfico) para espaço ASCII:

$ echo 'Ａb９８７６５４３２１０' | perl -C -pe 'y/\x{3000}\x{ff01}-\x{ff5e}/ !-~/'
Ab9876543210

curl -s https://www.unicode.org/Public/UNIDATA/UnicodeData.txt | grep '<wide>'

Irá revelar alguns extras que são variantes de largura total de alguns caracteres não ASCII, que você pode adicionar à lista.

perl -C -pe 'y/\x{3000}\x{ff01}-\x{ff60}\x{ffe0}-\x{ffe6}/ !-~\x{2985}\x{2986}\xa2\xa3\xac\xaf\xa6\xa5\x{20a9}/'

(e a pesquisa <narrow>mostrará as variantes de meia largura de alguns caracteres normalmente de largura total, mas é uma lista grande e com intervalos não contíguos, portanto, adicioná-los tornaria a expressão muito maior).

Em alguns sistemas, você pode fazer o mesmo trse estiver no código do idioma C.UTF-8, não com as versões atuais do GNU tr, a menos que seja corrigido pelo fornecedor do seu sistema operacional .

$ uname
FreeBSD
$ echo 'Ａb９８７６５４３２１０' | LC_ALL=C.UTF-8 tr $'\u3000\uff01-\uff5e' ' !-~'
Ab9876543210

(também assumindo um shell com suporte para zsh's $'\uXXXX').

Para a conversão reversa, basta alterar y/from/to/para y/to/from/.

perltambém possui uma interface para os dados Unicode em seu Unicode::UCDmódulo, então você também pode fazer:

perl -C -MUnicode::UCD=charprop -pe '
  s{\p{Decomposition_Type: Wide}}{
    $cache{$&} //= charprop(ord($&), "Decomposition_Mapping")
  }ge'

Embora seja bastante lento, mesmo que seja mitigado aqui pelo uso de cache. Veja perldoc perlunipropse perldoc Unicode::UCDpara detalhes.

Ou usando a decomposição NFKD para os caracteres que possuem um tipo de decomposição amplo :

perl -MUnicode::Normalize=NFKD -C -pe 's/\p{Dt=Wide}/NFKD$&/ge'

Se for para converter para ASCII, pelo menos em sistemas GNU, iconv -t ASCII//translittambém converteria esses (e mais caracteres para sua representação de caractere ASCII mais próxima¹)

$ echo 'Ｓｔéｐｈａｎｅ' | iconv -t ASCII//translit
Stephane

Obviamente, não há como fazer o inverso.

De qualquer forma, aqui, não é a conversão do mesmo caractere de charset para charset que você deseja fazer, mas alguma forma de transliteração de alguns caracteres para outros caracteres.

iconv -llike uconv -llista as codificações/conjuntos de caracteres suportados. uconv -Llista os transliteradores. GNU iconvsó tem aquilo //translitque dá uma aproximação possível se o caractere não existir no conjunto de caracteres de destino (além //ignorede apenas descartá-los).

^{¹ ou caracteres como em æ-> aeou ﬃ-> ffique, a propósito, não possuem formatos de largura total, mas já foram aproximados; por exemplo, você pode querer converter aﬃxpara ａｆｆｉｘem vez de ａﬃｘconverter para largura total, o que nenhuma das soluções mencionadas aqui trata.}

Como posso converter caracteres de largura total em caracteres de meia largura (e vice-versa)?

Possível firmware ausente /lib/firmware/i915/* para o módulo i915

Falha ao buscar o repositório de backports jessie

Como exportar uma chave privada GPG e uma chave pública para um arquivo

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Como posso converter caracteres de largura total em caracteres de meia largura (e vice-versa)?

1 respostas

relate perguntas