从 objdump 获取仅十六进制的输出

Question

Sebastian Carlos

Asked: 2023-10-30 17:51:02 +0800 CST2023-10-30 17:51:02 +0800 CST 2023-10-30 17:51:02 +0800 CST

为什么 UTF-8 的 MB_CUR_MAX 是 6 而不是 4？（Linux、glibc）

772

MB_CUR_MAX被 glibc 定义为“一个正整数表达式，它是当前语言环境中多字节字符的最大字节数”。

如果我打印我得到的值1。我认为这是因为 CC默认使用区域设置，即使我系统的区域设置是en_US.UTF-8.

如果我添加setlocale(LC_ALL, "")到我的程序中，它应该启用使用环境的区域设置，然后MB_CUR_MAX变成6.

现在我的问题是，为什么是 6？UTF-8 不是每个代码点有 1 到 4 个字节的编码吗？

1 个回答

Voted

Sebastian Carlos · Answer 1 · 2023-10-30T19:53:10+08:00

Best Answer

Sebastian Carlos

2023-10-30T19:53:10+08:002023-10-30T19:53:10+08:00

根据维基百科，UTF-8 确实需要最多 6 个字节，直到 2003 年，RFC 3629 添加了一些限制：

UTF-8 于 1993 年 1 月 25 日至 29 日在圣地亚哥举行的 USENIX 会议上首次正式提出。互联网工程任务组在 RFC 2277 (BCP 18) 中的字符集和语言政策中为未来的互联网采用了 UTF-8标准工作[...]

[上表标有“UTF-8 (1993)”，显示表示从 U+4000000 到 U+7FFFFFFF 的代码点需要 6 个字节]

2003年11月，UTF-8受到RFC 3629的限制，以匹配UTF-16字符编码的约束：明确禁止高低代理字符对应的码点删除超过3%的三字节序列，并结束U+10FFFF删除了超过 48% 的四字节序列以及所有五字节和六字节序列。

1

为什么 UTF-8 的 MB_CUR_MAX 是 6 而不是 4？（Linux、glibc）

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

为什么 UTF-8 的 MB_CUR_MAX 是 6 而不是 4？（Linux、glibc）

1 个回答

相关问题