AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / dba / 问题 / 100643
Accepted
Saeed Neamati
Saeed Neamati
Asked: 2015-05-06 02:03:24 +0800 CST2015-05-06 02:03:24 +0800 CST 2015-05-06 02:03:24 +0800 CST

为什么这些字符在 SQL Server 中都是相等的?

  • 772

我只是不明白。请参阅此 SQL 查询:

select nchar(65217) -- ﻁ
select nchar(65218) -- ﻂ
select nchar(65219) -- ﻃ
select nchar(65220) -- ﻄ
if nchar(65217) = nchar(65218)
    print 'equal'
if nchar(65217) = nchar(65219)
    print 'equal'
if nchar(65217) = nchar(65220)
    print 'equal'

基于传递关系,这意味着 SQL Server 认为它们都是同一个字符。

但是,在其他环境中,例如 C#,它们并不相同。

我感到困惑的是:

  1. 字符串比较在 SQL Server 中的工作原理
  2. 为什么比较在一台机器和一个平台上的行为不同,但在不同的环境下
  3. 这 4 个字符代表一个人类可以理解的字符。为什么它们在 Unicode 字符映射中如此丰富?

这当然会导致巨大的问题,因为我正在开发一个文本处理应用程序,数据几乎来自任何地方,我需要在处理之前对文本进行规范化。

如果我知道差异的原因,我可能会找到处理它的解决方案。谢谢你。

sql-server unicode
  • 2 2 个回答
  • 3629 Views

2 个回答

  • Voted
  1. Best Answer
    Dan Guzman
    2015-05-07T04:01:32+08:002015-05-07T04:01:32+08:00

    SQL Server 中的所有字符数据都与一个排序规则相关联,该排序规则确定了可以存储的字符域以及用于比较和排序数据的规则。排序规则适用于 Unicode 和非 Unicode 数据。

    SQL Server 包括 3 大类归类:二进制、旧版和 Windows。二进制类别(_BIN后缀)中的排序规则使用底层代码点进行比较,因此如果代码点不同而与字符无关,则相等比较返回不相等。旧版(SQL_前缀)和 Windows 排序规则为更自然的字典规则提供排序和比较语义。这允许比较考虑大小写、重音符号、宽度和假名。Windows 排序规则提供了与 Windows 操作系统紧密对齐的更强大word-sort的规则,而传统排序规则只考虑单个字符。

    下面的示例说明了 Windows 和带有 Teth 字符的二进制排序规则之间的区别:

    CREATE TABLE dbo.WindowsColationExample
        (
          Character1 nchar(1) COLLATE Arabic_100_CI_AS_SC
        , Character2 nchar(1) COLLATE Arabic_100_CI_AS_SC
        , Character3 nchar(1) COLLATE Arabic_100_CI_AS_SC
        , Character4 nchar(1) COLLATE Arabic_100_CI_AS_SC
        );
    
    CREATE TABLE dbo.BinaryColationExample
        (
          Character1 nchar(1) COLLATE Arabic_100_BIN
        , Character2 nchar(1) COLLATE Arabic_100_BIN
        , Character3 nchar(1) COLLATE Arabic_100_BIN
        , Character4 nchar(1) COLLATE Arabic_100_BIN
        );
    
    INSERT  INTO dbo.BinaryColationExample
    VALUES  ( NCHAR(65217), NCHAR(65218), NCHAR(65219), NCHAR(65220) );
    INSERT  INTO dbo.WindowsColationExample
    VALUES  ( NCHAR(65217), NCHAR(65218), NCHAR(65219), NCHAR(65220) );
    
    --all characters compare not equal
    SELECT *
    FROM dbo.BinaryColationExample
    WHERE
        character1 = character2
        OR character1 = character3
        OR character1 = character4
        OR character2 = character3
        OR character2 = character4
        OR character3 = character4;
    
    --all characters compare equal
    SELECT *
    FROM dbo.WindowsColationExample
    WHERE character1 = character2;
    SELECT *
    FROM dbo.WindowsColationExample
    WHERE character1 = character3;
    SELECT *
    FROM dbo.WindowsColationExample
    WHERE character1 = character4;
    SELECT *
    FROM dbo.WindowsColationExample
    WHERE character2 = character3;
    SELECT *
    FROM dbo.WindowsColationExample
    WHERE character2 = character4;
    SELECT *
    FROM dbo.WindowsColationExample
    WHERE character3 = character4;
    

    http://en.wikipedia.org/wiki/Duplicate_characters_in_Unicode中概述了为什么 Unicode 可能包含相同字形的不同代码点的原因 。我总结一下,这可能是为了遗留兼容性,或者字符不是规范等效的。请注意,Teth 字符ﻁ用于不同的语言 ( http://en.wikipedia.org/wiki/Teth )。

    • 29
  2. Mark Sinkinson
    2015-05-06T02:34:52+08:002015-05-06T02:34:52+08:00

    这与COLLATION您的数据库有关(更多信息在 BOL 中)。

    我不完全确定您遇到问题的特定字符的语言(我猜测基于此线程的波斯语),但如果您在相等运算符中指定正确的排序规则,那么您会得到准确的结果。

    if nchar(65217) COLLATE Persian_100_BIN = nchar(65218) COLLATE Persian_100_BIN 
        print 'equal'; -- nothing returned
    if nchar(65217)  COLLATE Persian_100_BIN  = nchar(65217)  COLLATE Persian_100_BIN 
        print 'equal'; -- prints 'equal'
    if nchar(65217) COLLATE Latin1_General_CI_AI = nchar(65220) COLLATE Latin1_General_CI_AI
        print 'equal'; -- prints 'equal'
    
    • 15

相关问题

  • SQL Server - 使用聚集索引时如何存储数据页

  • 我需要为每种类型的查询使用单独的索引,还是一个多列索引可以工作?

  • 什么时候应该使用唯一约束而不是唯一索引?

  • 死锁的主要原因是什么,可以预防吗?

  • 如何确定是否需要或需要索引

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目

    • 12 个回答
  • Marko Smith

    如何让sqlplus的输出出现在一行中?

    • 3 个回答
  • Marko Smith

    选择具有最大日期或最晚日期的日期

    • 3 个回答
  • Marko Smith

    如何列出 PostgreSQL 中的所有模式?

    • 4 个回答
  • Marko Smith

    列出指定表的所有列

    • 5 个回答
  • Marko Smith

    如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

    • 4 个回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Martin Hope
    Jin 连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane 如何列出 PostgreSQL 中的所有模式? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh 为什么事务日志不断增长或空间不足? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland 列出指定表的所有列 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney MySQL 能否合理地对数十亿行执行查询? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx 如何监控大型 .sql 文件的导入进度? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve