SQL Server - Como as páginas de dados são armazenadas ao usar um índice clusterizado

Question

Saeed Neamati

Asked: 2015-05-06 02:03:24 +0800 CST2015-05-06 02:03:24 +0800 CST 2015-05-06 02:03:24 +0800 CST

Por que esses caracteres são todos iguais no SQL Server?

772

Eu simplesmente não entendo. Veja esta consulta SQL:

select nchar(65217) -- ﻁ
select nchar(65218) -- ﻂ
select nchar(65219) -- ﻃ
select nchar(65220) -- ﻄ
if nchar(65217) = nchar(65218)
    print 'equal'
if nchar(65217) = nchar(65219)
    print 'equal'
if nchar(65217) = nchar(65220)
    print 'equal'

Com base na relação transitiva , significa que o SQL Server considera todos eles como o mesmo caractere.

No entanto, em outros ambientes, digamos, por exemplo, C#, eles não são os mesmos.

O que estou confuso é:

Como funciona a comparação de strings no SQL Server
Por que a comparação não se comporta da mesma forma em uma máquina e em uma plataforma, mas em ambientes diferentes
Esses 4 caracteres representam um personagem compreensível para humanos. Por que eles são tão abundantes no mapa de caracteres Unicode?

É claro que isso resulta em problemas tremendos, porque estou trabalhando em um aplicativo de processamento de texto e os dados vêm de quase todos os lugares e preciso normalizar o texto antes de processá-lo.

Se eu souber o motivo da diferença, posso encontrar uma solução para lidar com isso. Obrigada.

2 respostas

Voted

Dan Guzman · Answer 1 · 2015-05-07T04:01:32+08:00

Todos os dados de caracteres no SQL Server são associados a um agrupamento, que determina o domínio de caracteres que podem ser armazenados, bem como as regras usadas para comparar e classificar os dados. O agrupamento se aplica a dados Unicode e não Unicode.

O SQL Server inclui 3 categorias amplas de agrupamentos: binário, herdado e Windows. Os agrupamentos na categoria binária ( _BINsufixo) usam os pontos de código subjacentes para comparar, de modo que as comparações de igualdade retornem diferentes se os pontos de código forem diferentes, independentemente do caractere. Os agrupamentos herdados ( SQL_prefixo) e do Windows fornecem semântica de classificação e comparação para as regras de dicionário mais naturais. Isso permite comparações para considerar maiúsculas e minúsculas, acentos, largura e Kana. Os agrupamentos do Windows fornecem regras mais robustas word-sortque se alinham estreitamente com o sistema operacional Windows, enquanto os agrupamentos herdados consideram apenas caracteres únicos.

O exemplo abaixo ilustra as diferenças entre o Windows e o agrupamento binário com o caractere Teth:

CREATE TABLE dbo.WindowsColationExample
    (
      Character1 nchar(1) COLLATE Arabic_100_CI_AS_SC
    , Character2 nchar(1) COLLATE Arabic_100_CI_AS_SC
    , Character3 nchar(1) COLLATE Arabic_100_CI_AS_SC
    , Character4 nchar(1) COLLATE Arabic_100_CI_AS_SC
    );

CREATE TABLE dbo.BinaryColationExample
    (
      Character1 nchar(1) COLLATE Arabic_100_BIN
    , Character2 nchar(1) COLLATE Arabic_100_BIN
    , Character3 nchar(1) COLLATE Arabic_100_BIN
    , Character4 nchar(1) COLLATE Arabic_100_BIN
    );

INSERT  INTO dbo.BinaryColationExample
VALUES  ( NCHAR(65217), NCHAR(65218), NCHAR(65219), NCHAR(65220) );
INSERT  INTO dbo.WindowsColationExample
VALUES  ( NCHAR(65217), NCHAR(65218), NCHAR(65219), NCHAR(65220) );

--all characters compare not equal
SELECT *
FROM dbo.BinaryColationExample
WHERE
    character1 = character2
    OR character1 = character3
    OR character1 = character4
    OR character2 = character3
    OR character2 = character4
    OR character3 = character4;

--all characters compare equal
SELECT *
FROM dbo.WindowsColationExample
WHERE character1 = character2;
SELECT *
FROM dbo.WindowsColationExample
WHERE character1 = character3;
SELECT *
FROM dbo.WindowsColationExample
WHERE character1 = character4;
SELECT *
FROM dbo.WindowsColationExample
WHERE character2 = character3;
SELECT *
FROM dbo.WindowsColationExample
WHERE character2 = character4;
SELECT *
FROM dbo.WindowsColationExample
WHERE character3 = character4;

Os motivos pelos quais o Unicode pode conter diferentes pontos de código para glifos idênticos são descritos em http://en.wikipedia.org/wiki/Duplicate_characters_in_Unicode . Resumindo, pode ser para compatibilidade herdada ou os personagens não são canonicamente equivalentes. Observe que o caractere Teth ﻁé usado em diferentes idiomas ( http://en.wikipedia.org/wiki/Teth ).

Mark Sinkinson · Answer 2 · 2015-05-06T02:34:52+08:00

Mark Sinkinson

2015-05-06T02:34:52+08:002015-05-06T02:34:52+08:00

Isso tem algo a ver com o COLLATIONseu banco de dados ( mais informações em BOL ).

Não tenho certeza do idioma do caractere específico com o qual você está tendo problemas (suponho que persa com base neste tópico), mas se você especificar o agrupamento correto no operador de igualdade, obterá resultados precisos.

if nchar(65217) COLLATE Persian_100_BIN = nchar(65218) COLLATE Persian_100_BIN 
    print 'equal'; -- nothing returned
if nchar(65217)  COLLATE Persian_100_BIN  = nchar(65217)  COLLATE Persian_100_BIN 
    print 'equal'; -- prints 'equal'
if nchar(65217) COLLATE Latin1_General_CI_AI = nchar(65220) COLLATE Latin1_General_CI_AI
    print 'equal'; -- prints 'equal'

15

Por que esses caracteres são todos iguais no SQL Server?

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

Por que esses caracteres são todos iguais no SQL Server?

2 respostas

relate perguntas