我有一些编码值,我认为它们是 UTF-8。现在我真的不知道它是否是 UTF-8,因为其他在线工具和解码 UTF-8 的步骤不起作用,但可用的开源工具是唯一适合我的工具。实际的纯文本将是韩语。
现在的问题是工具无法处理超过 100 个单词或更大的字符串,而且即使处理大约 50-60 个单词也需要很多时间。由于该工具是开源的,如果可能的话,我想在本地系统上运行该工具,这样也许我可以更快地工作,或者没有任何字符限制。
工具链接:- https://software.hixie.ch/utilities/cgi/unicode-decoder/utf8-decoder 您还可以检查此工具的父目录(通过从 URL 中删除当前位置返回到上一个目录)其他文件所在的位置也存在像图书馆之类的东西。
我想了解为什么互联网上的所有其他解码器都不能专门针对我的字符串工作,而只有这个工具能够取得成功?如果可能的话,我怎样才能在本地运行这个工具。我有非常大量的数据。
这是示例数据。
- 박서연
- ê1€ì ìž
- ” ” “”
- ë°•ë̸ì—°
- ề̥̀̀ì̶
- ề̥̀̀ì̶
- ì´íšì§„
- ” ” “ ”
- ë°•ë̸ì—°
- ” ” “”
仅供参考,这些编码字符串是韩语中的名称。我的最终目标是实现韩语纯文本,而不是任何语言的翻译版本。
您所拥有的似乎是 UTF,但已被损坏以显示为 ANSI 编码。它可能来自缺少 Unicode UTF BOM(字节顺序标记)的文本文件
对我来说,将文本粘贴到内置 Windows 版本的记事本中,另存为 ANSI 编码,然后简单地重新打开该文件似乎可以修复它。我得到以下内容
박서연
,,,,,,,,,,,,김신자
유은서
박미연
김민영
김민영
이효진
최유빈
박미연
유은서
只需这样做就足以让窗口查看文本并检测正确编码的文本。
另一种选择是 Notepad++。将编码设置为 ANSI 并粘贴文本。它看起来像垃圾:
然后将编码设置为UTF-8: