AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / unix / Perguntas / 789149
Accepted
AlastairG
AlastairG
Asked: 2025-01-06 23:43:32 +0800 CST2025-01-06 23:43:32 +0800 CST 2025-01-06 23:43:32 +0800 CST

iconv falha ao detectar caractere utf-8 válido como utf-8

  • 772

Meus dados de entrada são os seguintes (conforme gerados pelo hexdump):

000000f0  69 61 6e e2 80 99 73 20  65 79 65 73 20 61 62 72  |ian...s eyes abr|

Quando abro este arquivo html() no Firefox, ele exibe estes caracteres como:

ian’s eyes abr

De acordo com o link https://superuser.com/questions/1237545/characters-in-email-displayed-like-e2-80-99 , "E2 80 99 é a sequência de valores hexadecimais que codificam uma aspa simples direita (') em UTF-8".

Este site concorda: https://www.utf8-chartable.de/unicode-utf8-table.pl?start=8192&number=128

Quando executo este comando iconv no arquivo que contém estes caracteres:

iconv -f UTF-8 -t ISO-8859-15 test_chapter.html > blah.html

Recebo a saída:

iconv: illegal input sequence at position 243

e o conteúdo de "blah.html" é truncado exatamente onde o apóstrofo estaria.

Então, para resumir, a internet diz que essa é uma sequência válida de bytes para UTF-8, mas o iconv discorda.

Alguém pode me ajudar a entender o que está acontecendo? Isso é um bug no iconv?

Como nota lateral, quando uso esse arquivo html com kindlegen para gerar um arquivo AZW, o caractere não é exibido corretamente. Tudo o que a internet pode me dizer é que preciso converter o arquivo para UTF-8, mas, até onde sei, já está!

unicode
  • 1 1 respostas
  • 400 Views

1 respostas

  • Voted
  1. Best Answer
    Kamil Maciorowski
    2025-01-07T00:06:28+08:002025-01-07T00:06:28+08:00

    Seu comentário:

    talvez o problema esteja na conversão para ISO-8859-15 em vez da conversão de UTF-8

    está no caminho certo. O problema é que não há ’no ISO-8859-15. O caractere mais similar é '. Veja quais man 1 iconvestados no Debian 12 estou usando:

    Se a string //TRANSLITfor anexada a to-encoding, os caracteres que estão sendo convertidos são transliterados quando necessário e possível. Isso significa que quando um caractere não pode ser representado no conjunto de caracteres de destino, ele pode ser aproximado por meio de um ou vários caracteres de aparência semelhante. Caracteres que estão fora do conjunto de caracteres de destino e não podem ser transliterados são substituídos por um ponto de interrogação ( ?) na saída.

    Use -t ISO-8859-15//TRANSLITentão.

    Como prova de conceito, isso funciona para mim (no pl_PL.UTF-8local):

    printf '%s\n' 'ian’s eyes abr' | iconv -f UTF-8 -t ISO-8859-15//TRANSLIT
    

    A saída é ian's eyes abr(com uma nova linha no final). Acontece que a representação dessa string exata é idêntica em ISO-8859-15 e em UTF-8, então escolhi não ofuscar o comando canalizando adicionalmente para iconv -f ISO-8859-15 -t UTF-8.

    • 11

relate perguntas

  • Substituir caracteres UTF-8 por shell perl

  • Fazendo o grep entender as fugas de bytes

  • Como traduzir caracteres Unicode? [duplicado]

  • Não é possível digitar trema usando o teclado

  • Empilhe til e barra sobre a letra

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Possível firmware ausente /lib/firmware/i915/* para o módulo i915

    • 3 respostas
  • Marko Smith

    Falha ao buscar o repositório de backports jessie

    • 4 respostas
  • Marko Smith

    Como exportar uma chave privada GPG e uma chave pública para um arquivo

    • 4 respostas
  • Marko Smith

    Como podemos executar um comando armazenado em uma variável?

    • 5 respostas
  • Marko Smith

    Como configurar o systemd-resolved e o systemd-networkd para usar o servidor DNS local para resolver domínios locais e o servidor DNS remoto para domínios remotos?

    • 3 respostas
  • Marko Smith

    apt-get update error no Kali Linux após a atualização do dist [duplicado]

    • 2 respostas
  • Marko Smith

    Como ver as últimas linhas x do log de serviço systemctl

    • 5 respostas
  • Marko Smith

    Nano - pule para o final do arquivo

    • 8 respostas
  • Marko Smith

    erro grub: você precisa carregar o kernel primeiro

    • 4 respostas
  • Marko Smith

    Como baixar o pacote não instalá-lo com o comando apt-get?

    • 7 respostas
  • Martin Hope
    user12345 Falha ao buscar o repositório de backports jessie 2019-03-27 04:39:28 +0800 CST
  • Martin Hope
    Carl Por que a maioria dos exemplos do systemd contém WantedBy=multi-user.target? 2019-03-15 11:49:25 +0800 CST
  • Martin Hope
    rocky Como exportar uma chave privada GPG e uma chave pública para um arquivo 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Evan Carroll status systemctl mostra: "Estado: degradado" 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim Como podemos executar um comando armazenado em uma variável? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S Por que /dev/null é um arquivo? Por que sua função não é implementada como um programa simples? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 Como ver as últimas linhas x do log de serviço systemctl 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - pule para o final do arquivo 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla Por que verdadeiro e falso são tão grandes? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis Substitua a string em um arquivo de texto enorme (70 GB), uma linha 2017-12-30 06:58:33 +0800 CST

Hot tag

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve