我有一组混合了希伯来语和英语的纯文本文件。这些文件是从 90 年代末到 2000 年代初,显然是用 NisusWriter 编写的。
当我打开文本文件时,英文行会正确呈现,但希伯来语行会像这样混乱 mojibake:
Â∆˙ŸÙœÏ∆À˙À̆††ÂŸ‰À÷Õ·†††‡Œ˙†††‰ÀÚ⁄·«„À‰††††
我写了一个循环来运行 iconv 它支持的每种编码,但没有一个输出是固定的
在前 3 行运行 hexdump -C(一个是英文,一个是混杂的希伯来语,一个是拉丁字符的音译)给出以下结果。看起来混乱的希伯来语写成 just 。字符
00000010 50 2e 20 31 31 30 20 20 2d 20 41 56 4f 44 41 48 |P. 110 - AVODAH|
00000020 0d 0d 20 f8 d9 f6 cd e4 a0 ac a0 a0 a0 e9 d9 e9 |.. .............|
00000030 cb a0 a0 a0 e0 db ec dd e4 cd d8 e9 f0 e5 c6 a0 |................|
00000040 ac a0 a0 a0 e1 c6 d9 f2 cc ee c6 d9 ea cb a0 a0 |................|
00000050 a0 e9 cf f9 dd d9 f8 cb e0 cd ec a0 ac 0d 0d 52 |...............R|
00000060 65 2d 74 7a 65 68 d5 2c 20 20 20 20 41 64 6f 6e |e-tzeh., Adon|
00000070 61 69 20 20 20 20 20 20 45 2d 6c 6f 2d 68 65 69 |ai E-lo-hei|
00000080 d5 2d 6e 75 20 2c 20 20 20 20 20 20 20 62 65 2d |.-nu , be-|
00000090 61 6d 2d 63 68 61 d5 20 20 20 20 20 20 20 20 79 |am-cha. y|
000000a0 69 73 2d 72 61 2d 65 6c d5 20 0d 62 65 20 70 6c |is-ra-el. .be pl|
000000b0 65 61 73 65 64 2c 20 20 20 20 41 64 6f 6e 61 69 |eased, Adonai|
我最终找到了解决方案,并认为我会写下来以防其他人遇到类似问题。
我使用了一个我发现的网站来尝试在阳光下的每一种编码,直到我得到一个正确呈现希伯来语的网站,尽管使用了神秘的字符分隔符。
https://www.motobit.com/util/charset-codepage-conversion.asp
我能够通过使用@user1686 的建议来验证这一点,以使用来自 的十六进制值
hexdump
,并与编码表进行交叉引用。最后发现文件被编码为 x-mac-hebrew