SQL Server - Como as páginas de dados são armazenadas ao usar um índice clusterizado

Question

Asked: 2021-06-17 07:35:55 +0800 CST2021-06-17 07:35:55 +0800 CST 2021-06-17 07:35:55 +0800 CST

Qual é a diferença entre Arabic_100_CS_AS_KS_WS_SC_UTF8 e Latin1_General_100_CS_AS_KS_WS_SC_UTF8?

772

A partir do SQL Server 2019, ele oferece suporte a UTF-8 como agrupamento. No entanto, de acordo com as seguintes consultas:

SELECT COLLATIONPROPERTY('Arabic_100_CS_AS_KS_WS_SC_UTF8', 'CodePage')
SELECT COLLATIONPROPERTY('Latin1_General_100_CS_AS_KS_WS_SC_UTF8', 'CodePage');

ambos retornam a página de código 65001que é Unicode no Windows. Além disso, todos os novos _UTF8agrupamentos usam a página de código 65001:

SELECT * FROM sys.fn_helpcollations() WHERE name LIKE '%_UTF8';

Existem diferenças entre usar Arabic_100_CS_AS_KS_WS_SC_UTF8e Latin1_General_100_CS_AS_KS_WS_SC_UTF8como agrupamento?

1 respostas

Voted

Solomon Rutzky · Answer 1 · 2021-06-17T08:04:24+08:00

Sim, todos os _UTF8agrupamentos usam a página de código 65001, pois essa é a página de código para UTF-8. Você pode até usar 65001 em uma janela DOS / Command através de:

chcp 65001

embora nem todos os programas e fontes funcionem perfeitamente com ele.

Para _UTF8agrupamentos, a página de código não é controlada pela cultura (ou seja, Latin1_Generalvs Arabic) como é para não _UTF8agrupamentos porque as páginas de código indicam a codificação específica de 8 bits usada para VARCHARdados (ou seja, dados de caracteres de 8 bits). Para codificações de 8 bits não Unicode, a cultura geralmente está vinculada à página de código que é o conjunto de caracteres (por exemplo, Latin1 é a página de código Windows-1252 que possui caracteres diferentes no intervalo 128-255 do que Windows-1255, que é o código página para hebraico). Mas para UTF-8, é a codificação de 8 bits para o conjunto de caracteres singular e abrangente que é Unicode.

No que diz respeito às diferenças entre Arabic_100_CS_AS_KS_WS_SC_UTF8e Latin1_General_100_CS_AS_KS_WS_SC_UTF8ir, seriam realmente apenas as regras específicas da cultura para classificação e comparação de vários personagens. É claro que essas duas linguagens não compartilham nenhum caractere, mas ainda pode haver diferenças na forma como alguns pontos de código são tratados.

Examinando o arquivo "Tabela de peso de classificação do Windows Server 2008" (que é o que os _100_agrupamentos de versão se baseiam principalmente, pelo que me disseram), não consigo encontrar nenhuma diferença de classificação/comparação entre esses dois agrupamentos. Então, eles são provavelmente os mesmos em termos de comportamento. No entanto, eles não são os mesmos no sentido de que eles ainda têm um LCID diferente (o identificador de localidade/cultura), portanto, converter seus valores para não UTF8 VARCHARpode resultar em perda/corrupção de dados e qualquer processo/funcionalidade olhando para o agrupamento para determinar que algum outro comportamento pode se comportar de maneira diferente.

Dito isto, encontrei um exemplo de uma diferença de comportamento para caracteres árabes ao usar um agrupamento Urdu, pois esses agrupamentos têm algumas modificações nos pesos de classificação padrão (9 registrados no arquivo "Tabela de peso de classificação do Windows Server 2008") .

Olhando para o caractere "Teh Marbuta" (U+0629), ele tem um peso de 29 na tabela padrão (ou seja, a tabela usada para inglês dos EUA / Latin1), que tem um peso de classificação menor que o caractere "Peheh" (U +06A6), que tem um peso padrão de 137. O 41 indica em qual "script" o caractere está, e ambos são caracteres arábicos. No entanto, os agrupamentos Urdu modificam o peso de classificação de "Teh Marbuta" (U+0629) para 183, que então tem um peso de classificação maior que "Peheh" (U+06A6), ainda sendo 137.

-- Default
0x0629  41  29  2   2   ;Arabic Teh Marbuta -- ة
0x06a6  41  137 2   2   ;Arabic Peheh       -- ڦ

-- Urdu modifications
0x0629  41  183 2   2   ;Teh Marbuta        -- ة

Se classificarmos esses dois caracteres usando Latin1_General_100_CS_AS_KS_WS_SC_UTF8ou Arabic_100_CS_AS_KS_WS_SC_UTF8, devemos obter o comportamento padrão. E, mesmo se usarmos um Yakutagrupamento, que usa o script cirílico e tem suas próprias modificações nos pesos de classificação padrão, ele não modifica nenhum desses caracteres arábicos, portanto, eles devem se comportar da mesma forma que ao usar um Latin1_Generalou Arabicagrupamento:

SELECT *
FROM   (VALUES (1, NCHAR(0x0629)), (2, NCHAR(0x06a6))) tmp(ID, TheChar)
ORDER BY tmp.[TheChar] COLLATE Latin1_General_100_CS_AS_KS_WS_SC_UTF8 ASC

SELECT *
FROM   (VALUES (1, NCHAR(0x0629)), (2, NCHAR(0x06a6))) tmp(ID, TheChar)
ORDER BY tmp.[TheChar] COLLATE Arabic_100_CS_AS_KS_WS_SC_UTF8 ASC


SELECT *
FROM   (VALUES (1, NCHAR(0x0629)), (2, NCHAR(0x06a6))) tmp(ID, TheChar)
ORDER BY tmp.[TheChar] COLLATE Yakut_100_CS_AS_KS_WS_SC_UTF8 ASC

Todas as três consultas mostradas acima retornam os seguintes resultados:

ID    TheChar
1     ة
2     ڦ

No entanto, quando mudamos para um Urduagrupamento, a ordem desses dois caracteres realmente muda:

SELECT *
FROM   (VALUES (1, NCHAR(0x0629)), (2, NCHAR(0x06a6))) tmp(ID, TheChar)
ORDER BY tmp.[TheChar] COLLATE Urdu_100_CS_AS_SC_UTF8 ASC

retorna:

ID    TheChar
2     ڦ
1     ة

Por fim, lembre-se de que, embora seja raro encontrar isso, os agrupamentos também podem afetar os mapeamentos de maiúsculas/minúsculas. Eu acredito que isso está confinado apenas a collations Azeri_*e Turkish, e apenas para as letras 'i' e 'I' (essas culturas têm um 'I' maiúsculo pontilhado e um 'i' minúsculo sem ponto), mas ainda é melhor Esteja ciente do potencial:

SELECT UPPER(N'i' COLLATE Arabic_100_CS_AS_KS_WS_SC_UTF8) AS [Arabic],
   UPPER(N'i' COLLATE Turkish_100_CS_AS_KS_WS_SC_UTF8) AS [Turkish],
   UPPER(N'i' COLLATE Azeri_Cyrillic_100_CS_AS_KS_WS_SC_UTF8) AS [Azeri_Cyrillic],
   UPPER(N'i' COLLATE Azeri_Latin_100_CS_AS_KS_WS_SC_UTF8) AS [Azeri_Latin];

retorna:

Arabic   Turkish   Azeri_Cyrillic   Azeri_Latin
I        İ         İ                İ

Qual é a diferença entre Arabic_100_CS_AS_KS_WS_SC_UTF8 e Latin1_General_100_CS_AS_KS_WS_SC_UTF8?

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

Qual é a diferença entre Arabic_100_CS_AS_KS_WS_SC_UTF8 e Latin1_General_100_CS_AS_KS_WS_SC_UTF8?

1 respostas

relate perguntas