用 shell perl 替换 UTF-8 字符

Question

AlastairG

Asked: 2025-01-06 23:43:32 +0800 CST2025-01-06 23:43:32 +0800 CST 2025-01-06 23:43:32 +0800 CST

iconv 无法将有效的 utf-8 字符检测为 utf-8

我的输入数据如下（由 hexdump 生成）：

000000f0  69 61 6e e2 80 99 73 20  65 79 65 73 20 61 62 72  |ian...s eyes abr|

当我在 Firefox 中打开此 html() 文件时，它会显示这些字符：

ian’s eyes abr

当我对包含以下字符的文件运行此 iconv 命令时：

iconv -f UTF-8 -t ISO-8859-15 test_chapter.html > blah.html

我得到输出：

iconv: illegal input sequence at position 243

并且“blah.html”的内容在撇号所在的位置被截断。

因此，总而言之，互联网说这是 UTF-8 的有效字节序列，但 iconv 不同意。

有人能帮我了解发生了什么吗？这是 iconv 中的错误吗？

顺便提一下，当我使用 kindlegen 生成 AZW 文件时，字符无法正确显示。互联网告诉我，我需要将文件转换为 UTF-8，但据我所知，它已经是了！

Kamil Maciorowski · Answer 1 · 2025-01-07T00:06:28+08:00

Best Answer

Kamil Maciorowski

您的评论：

也许问题在于转换为 ISO-8859-15 而不是从 UTF-8 转换

是正确的。问题是 ISO-8859-15 中没有’。最相似的字符是'。看看man 1 iconv我在使用的 Debian 12 中有什么状态：

如果将字符串附加到 to-encoding，则转换的字符会在需要时进行音译。这意味着当某个字符无法在目标字符集中表示时，可以通过一个或多个相似的字符来近似表示。目标字符集之外且无法音译的字符将在输出//TRANSLIT中用问号 ( ) 替换。?

然後使用-t ISO-8859-15//TRANSLIT。

作为概念证明，这对我有用（在pl_PL.UTF-8区域设置中）：

printf '%s\n' 'ian’s eyes abr' | iconv -f UTF-8 -t ISO-8859-15//TRANSLIT

输出为ian's eyes abr（末尾有一个换行符）。碰巧的是，这个字符串在 ISO-8859-15 和 UTF-8 中的表示形式完全相同，因此我选择不通过另外将管道连接到来混淆命令iconv -f ISO-8859-15 -t UTF-8。