Eu tenho um arquivo de texto que usa vários caracteres no intervalo de 128+ de maneiras atualmente não padronizadas. O file
comando apenas diz Non-ISO extended-ASCII
.
A partir do contexto, posso reconhecê-los:
Octal 201: u + unlaut
204: a + umlaut
216: A + umlaut
224: o + umlaut
341: double s
(Existem muitos outros, que eu suspeito que sejam símbolos gráficos, não caracteres.)
Adição , exemplo:
example: E0X A ANCIENT.IMG 2 0 C:\DOS\DISKOPT.EXE A: /O /Sa /M2
ДВД В ДДВДДДДДДДД В Д ДДДДДДДВДДДДДДДДДД ДДДДДДДВДДДДД
і і і і і і
load E0X ДЩ АДДДДДДДДДї і і і
і і і і і
with ANCIENT.IMG Щ і і і і
і і і і
for drive A: ДДДДДДДДДДЩ і і і
і і і
let DISKOPT work ДДДДДДДДДДіДДДДДДДДДДБДДДДДДДДДДДДДДДДДДЩ
і
and write the result back to disk if finished.
(Os caracteres gráficos são octal 263, 277, 302, 304, 331.)
E aqui está o link para o arquivo: e0x.arj . É o E0X.ENG
, mas acho que é a mesma codificação em todos os arquivos de texto.
Que conjunto de caracteres é esse e como posso torná-lo legível em um computador moderno?
Muito provavelmente as posições dos caracteres que você mencionou são números octais: 201 (que normalmente é escrito como 0201 para deixar claro que é octal) é o decimal 129 ou 0x81.
Esses caracteres são consistentes com várias páginas de código DOC:
Se for alemão, aposto que é 437 ou 850. Qualquer editor deve ser capaz de ler esse arquivo de texto e escrevê-lo em um conjunto de caracteres diferente.
Por exemplo, você pode lê-lo com o Notepad++ e escrevê-lo em UTF-8 se tiver certeza de que precisa disso.
PS depois de ler o arquivo que você anexou, posso ver que o charset E0X.ENG é a página de código 437 do MS-DOS. Você pode vê-lo convertido para utf-8 em https://pastebin.com/LdnQCpk4 .
Se você roda no Linux, você pode automatizar a conversão com GNU
recode
. Se você executa no DOS, vejo que esterecode
utilitário https://docs.seneca.nl/Smartsite-Docs/Features-Modules/Features/Tools/Recode-commandline-utility.html deve fazer o mesmo