我正在重读 Joel Spolsky 的经典博客文章绝对最低限度每个软件开发人员绝对、肯定地必须了解 Unicode 和字符集(没有借口!)并注意到这段话:
最终,这个免费的 OEM 被编入了 ANSI 标准 (强调我的)。在 ANSI 标准中,每个人都同意如何处理低于 128 的字符,这与 ASCII 几乎相同,但是有很多不同的方法来处理 128 及以上的字符,具体取决于您居住的地方。这些不同的系统称为代码页。
这篇文章指的是哪个 ANSI 标准?可以肯定的是,美国国家标准协会已经发布了许多标准(毕竟,这就是他们实际所做的),但我一直无法弄清楚是哪一个。
我对这可能暗示的最接近的猜测是,这实际上是在谈论 ISO-8859,也许该文件在被采纳为国际标准之前就开始作为美国标准使用;但这在标准化“代码页”和“OEM”字符集的上下文中没有意义。
维基百科的代码页文章提到了一个 IBM 标准,并指出 IANA 维护着代码页映射的注册表,但显然,它们都不是 ANSI。
我的理解是 ANSI 没有对任何现代 8 位字符集进行标准化,并且“ANSI”在这种情况下通常指的是微软现在已经废弃的混淆术语(其中“ANSI”当时显然是指当前的选定的代码页)。
有没有我忽略的标准?还是 Joel 的博客上只是(喘息)一个错误?
这是一个难题,所以让我们收集所有已知的事实。我们正在寻找:
结果对我来说只有一个 ——ASCII 标准。我相信这是 ANSI 制定的第一个指定前 128 个代码点的标准,实际上也是最后一个。
ASCII虽然后来在细节上有所演进,但主要的发展始于1963年,这个标准是由国际标准化组织(ISO)的美国分会制定的,也就是ANSI。因为这个标准省略了对非美国字符的引用,并且由于随后的代码页试图回答这个问题是一个真正杂乱无章的混乱,只能在 ASCII 部分达成一致,标准化工作由ISO 本身的国际组织。
从历史上看, ISO/IEC 8859 标准 介于 ASCII 和代码页之间,但这不是 ANSI 标准,而是由 ISO 制定的。
“ANSI 代码页”是对由 Microsoft 而不是 ANSI 创建的Windows 代码页的误称 。一种变体是Windows-1252的代码页 ,后来被称为 ISO/IEC 8859-1。
字符集的实际历史相当复杂,需要大量的侦探工作来建立时间表、交叉影响以及由此产生的实际标准或定义。但这一切都是由 ASCII 开始的,它为所有未来的发展奠定了基础,最终发展为 Unicode 和 UTF-8。
根据他们的维基百科页面,C0 和 C1 控制字符在 ANSI x3.4 中定义。
其中包括用于扩展文本格式的转义序列,ISO 2022和ISO 8859使用这些转义序列来允许多字节国际字符集。
例如,ESC $ @ 和 ESC $ B 切换到不同的日语 2 字节编码,而 ESC ( B 切换回 US-ASCII。这些可能是 ISO(或 ECMA)标准,但它们使用 ANSI 控制代码,所以这可能是部分用词不当。
没有 Joel 的输入,我们无法确定,但根据此处的其他答案尝试以及我从中发现的缺陷,让我提交我认为明显而简单的推测:
这里没有实际的 ANSI 标准,Joel 只是在掩饰。
在这里总结和可能混淆的确切内容肯定不太确定,但我的猜测是他正在谈论 Windows 代码页的开发,微软曾一度将其称为“ANSI 代码页”,尽管从来没有与美国国家标准协会有任何切实的联系,可能不包括最终失败的努力,将 Windows 代码页 1252 标准化为“扩展 ASCII”,其中包含用于某些西欧语言的各种重音字符和用于排版和简单数学表达式的符号。根据一些消息来源,这最终导致了ISO/IEC 8859-1以及针对不同地区的 8 位字符集的更大的ISO 8859标准系列(另请参阅ECMA-94)。
根据记录,ASA 和随后的ANSI 委员会 X3负责 ASCII 标准(ASA X3.4,然后是 ANSI X3.4,然后是 ISO 646)以及用于显示终端的 ASCII 屏幕控制序列的 X3.64 标准。该委员会在 1980 年代末发表的著名出版物包括 C 语言提案和所谓的“扩展 Pascal”以及 SCSI 硬件接口,但我找不到与这一时期的字符集相关的任何内容。
https://en.wikipedia.org/wiki/ASCII#History
根据这个列表,第一个定义 ASCII 的 ANSI 标准是 ANSI X3.4-1977。