Old Geezer Asked: 2020-05-21 18:38:56 +0800 CST2020-05-21 18:38:56 +0800 CST 2020-05-21 18:38:56 +0800 CST UTF-8 与带有 BOM 的 UTF-8 772 最新的 Notepad.exe 具有另存为UTF-8和UTF-8 with BOM. 是UTF-8 with BOM旧的UTF吗?现在是什么UTF-8? windows-10 notepad 2 个回答 Voted Best Answer Giacomo1968 2020-05-21T19:54:33+08:002020-05-21T19:54:33+08:00 无论 BOM 是否存在,UTF-8 都是 UTF-8。 UTF-8 并不真正需要使用 BOM(字节顺序标记)保存文件。 记事本允许将文件保存为“UTF-8”或“带有 BOM 的 UTF-8”的事实似乎是在需要 BOM(字节顺序标记)的情况下提供灵活性的一个选项。但总的来说,只保存没有 BOM 的文件(即纯 UTF-8)确实是处理具有 UTF-8 内容的文本文件的最佳方式。 正如Wikipedia page for byte order mark 所解释的: “BOM 的使用是可选的。它的存在会干扰软件对 UTF-8 的使用,这些软件在文件开头不期望非 ASCII 字节,但可以处理文本流。” 文章通过陈述以下内容对其进行了更深入的研究;大胆的强调是我的: “BOM 的 UTF-8 表示是(十六进制)字节序列0xEF,0xBB,0xBF。 Unicode 标准允许使用 UTF-8 的 BOM,但不要求也不推荐使用它。字节顺序在 UTF-8 中没有意义,因此它在 UTF-8 中的唯一用途是在开始时表示文本流以 UTF-8 编码,或者它已从包含可选物料清单。该标准也不建议在 BOM 存在时删除它,以便编码之间的往返不会丢失信息,并且依赖于它的代码继续工作。IETF 建议,如果一个协议 (a) 始终使用 UTF-8,或者 (b) 有其他方式来指示正在使用的编码,那么它“应该禁止使用 U+FEFF 作为签名”。 不使用 BOM 允许文本向后兼容某些不支持 Unicode 的软件。示例包括允许在字符串文字中使用非 ASCII 字节但不允许在文件开头的编程语言。” 至于为什么微软关心在记事本中保存带有 BOM 的 UTF-8?这很好地解释了它;似乎是 Microsoft 编程工具的特定要求,而不是任何其他非 Microsoft 工具: “Microsoft 编译器和解释器以及 Microsoft Windows 上的许多软件(例如记事本)将 BOM 视为必需的幻数,而不是使用启发式方法。这些工具在将文本保存为 UTF-8 时会添加 BOM,并且除非 BOM 存在或文件仅包含 ASCII,否则无法解释 UTF-8。在将文档转换为纯文本文件以供下载时,Google Docs 还会添加 BOM。” 因此,除非您明确需要保存一个带有 BOM 的 UTF-8 文件,否则不要担心该保存选项。 Mark 2020-05-21T23:41:32+08:002020-05-21T23:41:32+08:00 另一个答案是错误的。这是一些政治问题。ANSI 是 Windows 中的默认文本格式,已经使用了 36 年。 在 Windows 中,文件假定为 ANSI。因此,您始终使用 BOM。无法处理 BOM 的 Unix 程序不符合 Unicode。 我写文本编辑器。如果用户没有指定它是 ANSI - ALWAYS。 假设您将获得 BOMless Unicode,则意味着您必须调用https://docs.microsoft.com/en-us/windows/win32/api/winbase/nf-winbase-istextunicode来猜测格式。几乎没有正确的编程。
无论 BOM 是否存在,UTF-8 都是 UTF-8。
UTF-8 并不真正需要使用 BOM(字节顺序标记)保存文件。
记事本允许将文件保存为“UTF-8”或“带有 BOM 的 UTF-8”的事实似乎是在需要 BOM(字节顺序标记)的情况下提供灵活性的一个选项。但总的来说,只保存没有 BOM 的文件(即纯 UTF-8)确实是处理具有 UTF-8 内容的文本文件的最佳方式。
正如Wikipedia page for byte order mark 所解释的:
文章通过陈述以下内容对其进行了更深入的研究;大胆的强调是我的:
至于为什么微软关心在记事本中保存带有 BOM 的 UTF-8?这很好地解释了它;似乎是 Microsoft 编程工具的特定要求,而不是任何其他非 Microsoft 工具:
因此,除非您明确需要保存一个带有 BOM 的 UTF-8 文件,否则不要担心该保存选项。
另一个答案是错误的。这是一些政治问题。ANSI 是 Windows 中的默认文本格式,已经使用了 36 年。
在 Windows 中,文件假定为 ANSI。因此,您始终使用 BOM。无法处理 BOM 的 Unix 程序不符合 Unicode。
我写文本编辑器。如果用户没有指定它是 ANSI - ALWAYS。
假设您将获得 BOMless Unicode,则意味着您必须调用https://docs.microsoft.com/en-us/windows/win32/api/winbase/nf-winbase-istextunicode来猜测格式。几乎没有正确的编程。