Grep para um conjunto de linhas de $START a $END AND que contém uma correspondência em $MIDDLE

Question

Philippos

Asked: 2022-04-03 00:00:27 +0800 CST2022-04-03 00:00:27 +0800 CST 2022-04-03 00:00:27 +0800 CST

Corrigir o caos de codificação de caracteres

772

Estou construindo um script para extrair alguns dados de um site com codificação de caracteres quebrada:

O cabeçalho html afirma que é iso-8859-1, mas não é
wgetting o arquivo me mostra que na verdade é utf-8, mas com caracteres errados
A engenharia reversa me mostra que alguém conseguiu usar a página de código do Windows 1252 como código unicode!

Assim, por exemplo, o backtick é 0x91 na página de código 1252 e é U+0091 nesta página. Esquisito. Surpreendentemente, os navegadores da web parecem ser capazes de reparar isso automaticamente.

Minha pergunta: Qual ferramenta pode me ajudar a limpar essa bagunça? (Não à mão! Este é um site dinâmico com centenas de páginas e eu vi pelo menos seis codificações falsas diferentes.)

1 respostas

Voted

Sheldon · Answer 1 · 2022-04-03T01:23:16+08:00

Dependendo do que você quer dizer com "Não à mão", iconvpode ser útil para sua tarefa.

iconv - converte texto de uma codificação de caracteres para outra

OPÇÕES

   -f from-encoding, --from-code=from-encoding
          Use from-encoding for input characters.

   -t to-encoding, --to-code=to-encoding
          Use to-encoding for output characters.

Na minha experiência, o iconv funciona mesmo se você tiver que lidar com codificações erradas. Por exemplo, você pode dizer ao iconv que os dados de entrada são codificados em utf-8, mesmo que sejam iso-8859, para que o iconv aja como se a entrada fosse utf-8. Dessa forma, você pode reparar dados codificados incorretamente.

Como o iconv pode funcionar como um filtro, você pode encadeá-lo com algo como curl. O encadeamento com wgetdeve funcionar também, quando você usa --output-document -.

Pelo que sei, o iconv não é capaz de detectar/adivinhar a codificação de entrada correta. Mas dependendo de quão confusos são seus dados de entrada, isso pode ser "impossível" de qualquer maneira, se o site tiver (muito) muitos tipos diferentes de codificação errada/misturada. Se todo o site estiver bagunçado da mesma maneira, você poderá consertá-lo.

Corrigir o caos de codificação de caracteres

Possível firmware ausente /lib/firmware/i915/* para o módulo i915

Falha ao buscar o repositório de backports jessie

Como exportar uma chave privada GPG e uma chave pública para um arquivo

Como podemos executar um comando armazenado em uma variável?

Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

apt-get update error no Kali Linux após a atualização do dist [duplicado]

Como ver as últimas linhas x do log de serviço systemctl

Nano - pule para o final do arquivo

erro grub: você precisa carregar o kernel primeiro

Como baixar o pacote não instalá-lo com o comando apt-get?

Corrigir o caos de codificação de caracteres

1 respostas

relate perguntas