mvorisek Asked: 2020-10-14 14:51:39 +0800 CST2020-10-14 14:51:39 +0800 CST 2020-10-14 14:51:39 +0800 CST 不同的 utf8mb4 二进制排序规则有什么区别? 772 utf8mb4_0900_bin与utf8mb4_bin二进制排序规则有什么区别? mysql collation 1 个回答 Voted Best Answer Solomon Rutzky 2020-10-14T22:32:25+08:002020-10-14T22:32:25+08:00 据我所知,存在三个差异(根据他们的文档): 案例映射(用于LOWER()/UPPER()功能): https://dev.mysql.com/doc/refman/8.0/en/charset-unicode-sets.html#charset-unicode-sets-uca LOWER() 和 UPPER() 函数根据其参数的排序规则执行大小写折叠。 在这种情况下,两个排序规则之间的区别在于,该_0900_版本基于较新版本的 Unicode,很可能具有更多映射定义(甚至可能进行一些更正)。 填充与无填充(尾随空格): https://dev.mysql.com/doc/refman/8.0/en/charset-unicode-sets.html#charset-unicode-sets-pad-attributes 的 pad 属性utf8mb4_bin是PAD SPACE,而 for utf8mb4_0900_binit 是NO PAD。因此,涉及的utf8mb4_0900_bin操作不添加尾随空格,并且涉及带有尾随空格的字符串的比较对于两个排序规则可能不同 本质上,utf8mb4_bin忽略尾随空格utf8mb4_0900_bin而不忽略它们。有关示例,请参阅文档(上面链接)。 排序(仅性能,而不是排序): https://dev.mysql.com/doc/refman/8.0/en/charset-unicode-sets.html#charset-unicode-sets-collating-weights 对于_bin除 之外的排序utf8mb4_0900_bin规则,权重基于代码点,可能添加了前导零字节。 对于utf8mb4_0900_bin,权重是utf8mb4编码字节。排序顺序与 for 相同utf8mb4_bin,但要快得多。 将其翻译成人类,他们说对于诸如 U+FF9D 之类的代码点,utf8mb4_bin将看到EF BE 9D的 UTF-8 编码字节序列并将其转换为00 FF 9D。但是,utf8mb4_0900_bin不会将其转换为代码点值。这是由于 UTF-8 字节序列已经是连续的,因此顺序与代码点值的顺序相同。那么,为什么还要费心那个额外的转换步骤呢?
据我所知,存在三个差异(根据他们的文档):
案例映射(用于
LOWER()
/UPPER()
功能):https://dev.mysql.com/doc/refman/8.0/en/charset-unicode-sets.html#charset-unicode-sets-uca
在这种情况下,两个排序规则之间的区别在于,该
_0900_
版本基于较新版本的 Unicode,很可能具有更多映射定义(甚至可能进行一些更正)。填充与无填充(尾随空格):
https://dev.mysql.com/doc/refman/8.0/en/charset-unicode-sets.html#charset-unicode-sets-pad-attributes
本质上,
utf8mb4_bin
忽略尾随空格utf8mb4_0900_bin
而不忽略它们。有关示例,请参阅文档(上面链接)。排序(仅性能,而不是排序):
https://dev.mysql.com/doc/refman/8.0/en/charset-unicode-sets.html#charset-unicode-sets-collating-weights
将其翻译成人类,他们说对于诸如 U+FF9D 之类的代码点,
utf8mb4_bin
将看到EF BE 9D的 UTF-8 编码字节序列并将其转换为00 FF 9D。但是,utf8mb4_0900_bin
不会将其转换为代码点值。这是由于 UTF-8 字节序列已经是连续的,因此顺序与代码点值的顺序相同。那么,为什么还要费心那个额外的转换步骤呢?