SQL Server - 使用聚集索引时如何存储数据页

Question

Saeed Neamati

Asked: 2015-05-06 02:03:24 +0800 CST2015-05-06 02:03:24 +0800 CST 2015-05-06 02:03:24 +0800 CST

为什么这些字符在 SQL Server 中都是相等的？

772

我只是不明白。请参阅此 SQL 查询：

select nchar(65217) -- ﻁ
select nchar(65218) -- ﻂ
select nchar(65219) -- ﻃ
select nchar(65220) -- ﻄ
if nchar(65217) = nchar(65218)
    print 'equal'
if nchar(65217) = nchar(65219)
    print 'equal'
if nchar(65217) = nchar(65220)
    print 'equal'

基于传递关系，这意味着 SQL Server 认为它们都是同一个字符。

但是，在其他环境中，例如 C#，它们并不相同。

我感到困惑的是：

字符串比较在 SQL Server 中的工作原理
为什么比较在一台机器和一个平台上的行为不同，但在不同的环境下
这 4 个字符代表一个人类可以理解的字符。为什么它们在 Unicode 字符映射中如此丰富？

这当然会导致巨大的问题，因为我正在开发一个文本处理应用程序，数据几乎来自任何地方，我需要在处理之前对文本进行规范化。

如果我知道差异的原因，我可能会找到处理它的解决方案。谢谢你。

2 个回答

Voted

Dan Guzman · Answer 1 · 2015-05-07T04:01:32+08:00

SQL Server 中的所有字符数据都与一个排序规则相关联，该排序规则确定了可以存储的字符域以及用于比较和排序数据的规则。排序规则适用于 Unicode 和非 Unicode 数据。

SQL Server 包括 3 大类归类：二进制、旧版和 Windows。二进制类别（_BIN后缀）中的排序规则使用底层代码点进行比较，因此如果代码点不同而与字符无关，则相等比较返回不相等。旧版（SQL_前缀）和 Windows 排序规则为更自然的字典规则提供排序和比较语义。这允许比较考虑大小写、重音符号、宽度和假名。Windows 排序规则提供了与 Windows 操作系统紧密对齐的更强大word-sort的规则，而传统排序规则只考虑单个字符。

下面的示例说明了 Windows 和带有 Teth 字符的二进制排序规则之间的区别：

CREATE TABLE dbo.WindowsColationExample
    (
      Character1 nchar(1) COLLATE Arabic_100_CI_AS_SC
    , Character2 nchar(1) COLLATE Arabic_100_CI_AS_SC
    , Character3 nchar(1) COLLATE Arabic_100_CI_AS_SC
    , Character4 nchar(1) COLLATE Arabic_100_CI_AS_SC
    );

CREATE TABLE dbo.BinaryColationExample
    (
      Character1 nchar(1) COLLATE Arabic_100_BIN
    , Character2 nchar(1) COLLATE Arabic_100_BIN
    , Character3 nchar(1) COLLATE Arabic_100_BIN
    , Character4 nchar(1) COLLATE Arabic_100_BIN
    );

INSERT  INTO dbo.BinaryColationExample
VALUES  ( NCHAR(65217), NCHAR(65218), NCHAR(65219), NCHAR(65220) );
INSERT  INTO dbo.WindowsColationExample
VALUES  ( NCHAR(65217), NCHAR(65218), NCHAR(65219), NCHAR(65220) );

--all characters compare not equal
SELECT *
FROM dbo.BinaryColationExample
WHERE
    character1 = character2
    OR character1 = character3
    OR character1 = character4
    OR character2 = character3
    OR character2 = character4
    OR character3 = character4;

--all characters compare equal
SELECT *
FROM dbo.WindowsColationExample
WHERE character1 = character2;
SELECT *
FROM dbo.WindowsColationExample
WHERE character1 = character3;
SELECT *
FROM dbo.WindowsColationExample
WHERE character1 = character4;
SELECT *
FROM dbo.WindowsColationExample
WHERE character2 = character3;
SELECT *
FROM dbo.WindowsColationExample
WHERE character2 = character4;
SELECT *
FROM dbo.WindowsColationExample
WHERE character3 = character4;

http://en.wikipedia.org/wiki/Duplicate_characters_in_Unicode中概述了为什么 Unicode 可能包含相同字形的不同代码点的原因。我总结一下，这可能是为了遗留兼容性，或者字符不是规范等效的。请注意，Teth 字符ﻁ用于不同的语言 ( http://en.wikipedia.org/wiki/Teth )。

Mark Sinkinson · Answer 2 · 2015-05-06T02:34:52+08:00

Mark Sinkinson

2015-05-06T02:34:52+08:002015-05-06T02:34:52+08:00

这与COLLATION您的数据库有关（更多信息在 BOL 中）。

我不完全确定您遇到问题的特定字符的语言（我猜测基于此线程的波斯语），但如果您在相等运算符中指定正确的排序规则，那么您会得到准确的结果。

if nchar(65217) COLLATE Persian_100_BIN = nchar(65218) COLLATE Persian_100_BIN 
    print 'equal'; -- nothing returned
if nchar(65217)  COLLATE Persian_100_BIN  = nchar(65217)  COLLATE Persian_100_BIN 
    print 'equal'; -- prints 'equal'
if nchar(65217) COLLATE Latin1_General_CI_AI = nchar(65220) COLLATE Latin1_General_CI_AI
    print 'equal'; -- prints 'equal'

15

为什么这些字符在 SQL Server 中都是相等的？

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

为什么这些字符在 SQL Server 中都是相等的？

2 个回答

相关问题