我有一个文本文件,它以当前非标准方式使用 128+ 范围内的各种字符。file
命令只是Non-ISO extended-ASCII
说。
从上下文中我可以识别这些:
Octal 201: u + unlaut
204: a + umlaut
216: A + umlaut
224: o + umlaut
341: double s
(还有很多其他的,我怀疑是图形符号,而不是字符。)
加法,例如:
example: E0X A ANCIENT.IMG 2 0 C:\DOS\DISKOPT.EXE A: /O /Sa /M2
ДВД В ДДВДДДДДДДД В Д ДДДДДДДВДДДДДДДДДД ДДДДДДДВДДДДД
і і і і і і
load E0X ДЩ АДДДДДДДДДї і і і
і і і і і
with ANCIENT.IMG Щ і і і і
і і і і
for drive A: ДДДДДДДДДДЩ і і і
і і і
let DISKOPT work ДДДДДДДДДДіДДДДДДДДДДБДДДДДДДДДДДДДДДДДДЩ
і
and write the result back to disk if finished.
(图形字符为八进制 263、277、302、304、331。)
这是文件的链接:e0x.arj。它是E0X.ENG
,但我猜它在所有文本文件中都是相同的编码。
这是哪个字符集,我怎样才能使它在现代计算机上可读?
您提到的字符位置很可能是八进制数:201(习惯上写成 0201 以表明它是八进制数)是十进制 129 或 0x81。
这些字符与几个 DOC 代码页一致:
如果是德语,我敢打赌它是 437 或 850。任何编辑器都应该能够读取该文本文件并用不同的字符集编写它。
例如,如果您确定需要,您可以使用 Notepad++ 阅读并以 UTF-8 写入。
PS 在阅读您附加的文件后,我可以看到 E0X.ENG 字符集是 MS-DOS 代码页 437。您可以在https://pastebin.com/LdnQCpk4看到它转换为 utf-8 。
如果您在 Linux 上运行,您可以使用 GNU 自动转换
recode
。如果你在 DOS 上运行,我看到这个recode
实用程序https://docs.seneca.nl/Smartsite-Docs/Features-Modules/Features/Tools/Recode-commandline-utility.html应该做同样的事情