SQL Server - Como as páginas de dados são armazenadas ao usar um índice clusterizado

Question

Asked: 2017-11-10 12:46:54 +0800 CST2017-11-10 12:46:54 +0800 CST 2017-11-10 12:46:54 +0800 CST

Por que o XML está ocupando mais armazenamento do que VARCHAR(MAX)?

772

Temos grandes tabelas armazenando dados XML como varchar(MAX). Os dados são para fins de referência/históricos, não são consultados. Com base no que li, armazenar como tipo de dados XML em vez de VARCHAR(MAX) deve resultar em economia de espaço, mas meus testes mostram o contrário. Veja abaixo, onde o tamanho de t1_XML é menor que t1_NVARCHARMAX, mas maior que t1_VARCHARMAX.

set nocount on;

drop table t1_XML;
drop table t1_VARCHARMAX;
drop table t1_NVARCHARMAX;

create table t1_XML(col1 int identity primary key, col2 XML);
create table t1_VARCHARMAX(col1 int identity primary key, col2 varchar(max));
create table t1_NVARCHARMAX(col1 int identity primary key, col2 nvarchar(max));

go

declare @xml XML = '<root><element1>test</element1><element2>test</element2><element3>test</element3><element4>test</element4><element5>test</element5></root>'
    , @x int = 1;

while @x <= 10000
begin
    begin tran

    insert into dbo.t1_XML (col2) values (@xml);
    insert into dbo.t1_VARCHARMAX (col2) values (cast(@xml as varchar(max)));
    insert into dbo.t1_NVARCHARMAX (col2) values (cast(@xml as varchar(max)));

    commit tran

    set @x += 1;
end

exec sp_spaceused 'dbo.t1_XML';
exec sp_spaceused 'dbo.t1_VARCHARMAX';
exec sp_spaceused 'dbo.t1_NVARCHARMAX';

3 respostas

Voted

Solomon Rutzky · Answer 1 · 2017-11-11T15:22:47+08:00

Há duas coisas para saber sobre oXML tipo de dados que, juntas, explicam o que você está enfrentando:

Conforme observado na resposta de @EvanCarroll , o tipo de XMLdados é otimizado. Ou seja, em vez de repetir nomes de elementos e atributos (que normalmente são bastante repetidos e são uma grande parte do motivo pelo qual tantas pessoas, às vezes com razão, reclamam que os documentos XML são tão volumosos), um dicionário / lista de pesquisa é criado para armazene cada nome exclusivo uma vez, dado um ID numérico, e esse ID é usado para preencher a estrutura do documento. É por isso que o tipo de XMLdados geralmente é uma maneira melhor de armazenar documentos XML.
Além disso, oXML tipo de dados usa UTF-16 (Little Endian) para armazenar valores de string (nomes de elementos e atributos, bem como qualquer conteúdo de string real). Esse tipo de dados não usa compactação, portanto, as strings são essencialmente 2 ou 4 bytes por caractere, com a maioria dos caracteres sendo da variedade de 2 bytes.

Observando o documento XML de teste específico que você está usando e o VARCHARtipo de dados (1 a 2 bytes por caractere, geralmente a variedade de 1 byte), agora podemos explicar o que você está vendo como resultado de:

Cada um de seus elementos ( root, element1, etc) é usado apenas uma vez, então a única economia de colocar os nomes na lista de pesquisa é cortar o tamanho exatamente pela metade. Mas, o tipo XML usa UTF-16 para que o tamanho de cada string seja o dobro, cancelando a economia de mover os nomes dos elementos para a lista de pesquisa. Neste ponto, se olharmos apenas para a estrutura do documento (ou seja, nomes de elementos), não haverá efetivamente nenhuma diferença entre o XMLtipo e a VARCHARversão.
Mas, o conteúdo da string em cada elemento (ou seja, test) ocupa o dobro do número de bytes: 8 bytes em XMLoposição a 4 bytes em VARCHAR. Dado que existem 5 instâncias de "teste" por cada linha, são 20 bytes extras por linha para o XMLtipo. Em 10k linhas, são 200.000 bytes extras da diferença de 600.000 bytes. O resto é a sobrecarga interna do XMLtipo e a sobrecarga de página adicional do número adicional de páginas de dados necessárias para armazenar o mesmo número de linhas devido ao fato de cada linha ser um pouco maior.

Para ilustrar melhor esse comportamento, considere as duas variações de dados XML a seguir: a primeira é exatamente o mesmo XML da pergunta e a segunda é quase a mesma, mas com todos os elementos com o mesmo nome. Na segunda versão, todos os nomes de elementos são "element1" para que tenham o mesmo comprimento de cada elemento na versão original. Isso resulta no VARCHARcomprimento dos dados sendo o mesmo em ambos os casos. Mas os nomes dos elementos sendo os mesmos na segunda versão permitem que as otimizações internas sejam mais perceptíveis.

-- Original XML (unique element names -- "element1", "element2", ... "elementN"):
DECLARE @xml XML =  '<root><element1>test</element1><element2>test</element2>
<element3>test</element3><element4>test</element4><element5>test</element5></root>';
SELECT DATALENGTH(@xml) AS [XmlBytes],
       DATALENGTH(CONVERT(VARCHAR(MAX), @xml)) AS [VarcharBytes];

-- More "typical" XML (repeated element names -- all "element1"):
DECLARE @xml2 XML = '<root><element1>test</element1><element1>test</element1>
<element1>test</element1><element1>test</element1><element1>test</element1></root>';
SELECT DATALENGTH(@xml2) AS [XmlBytes],
       DATALENGTH(CONVERT(VARCHAR(MAX), @xml2)) AS [VarcharBytes];

Resultados:

ElementNames    XmlBytes    VarcharBytes
------------    --------    ------------
Unique          197         138
Non-Unique      109         138

Evan Carroll · Answer 2 · 2017-11-10T13:04:37+08:00

Dos documentos sobre tipo de dados e colunas XML (SQL Server)

Os dados são armazenados em uma representação interna que preserva o conteúdo XML dos dados. Essa representação interna inclui informações sobre a hierarquia de contenção, ordem do documento e valores de elemento e atributo. Especificamente, o conteúdo do InfoSet dos dados XML é preservado. Para obter mais informações sobre o InfoSet, visite http://www.w3.org/TR/xml-infoset . O conteúdo do InfoSet pode não ser uma cópia idêntica do texto XML, porque as seguintes informações não são retidas: espaços em branco insignificantes, ordem dos atributos, prefixos de namespace e declaração XML.

binary_representation_sizeé aproximadamente data+ information about the containment hierarchy, document order, and element and attribute values- insignificant white spaces, order of attributes, namespace prefixes, and XML declaration

Isso não é uma vitória clara se você não tiver prefixos de namespace e espaço em branco você está apenas armazenando mais dados.

Também é mencionado explicitamente nos documentos que você pode querer usar nvarchar(max)se estiver apenas armazenando e não se importando com os recursos ou validação,

Se nenhuma dessas condições [necessidade de funcionalidade avançada] for atendida, você deve usar o modelo de dados relacional. Por exemplo, se seus dados estão no formato XML, mas seu aplicativo usa apenas o banco de dados para armazenar e recuperar os dados, uma [n]varchar(max)coluna é tudo o que você precisa. Armazenar os dados em uma coluna XML tem benefícios adicionais. Isso inclui fazer com que o mecanismo determine se os dados estão bem formados ou são válidos e também inclui suporte para consultas refinadas e atualizações nos dados XML.

Michael Green · Answer 3 · 2018-11-27T19:03:50+08:00

O SQL Server 2016 introduziu a função COMPRESS . Aplicando isso ao exemplo do @Solomon:

... DATALENGTH(COMPRESS(CONVERT(VARCHAR(MAX), @xml))) AS [VarcharCompressed];

... DATALENGTH(COMPRESS(CONVERT(VARCHAR(MAX), @xml2))) AS [VarcharCompressed];

Mais economia de espaços é obtida:

ElementNames    XmlBytes    VarcharBytes  VarcharCompressed
------------    --------    ------------  -----------------
Unique          197         138           72
Non-Unique      109         138           49

É digno de nota que o espaço é economizado para nomes de elementos únicos e repetidos.

Por que o XML está ocupando mais armazenamento do que VARCHAR(MAX)?

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

Por que o XML está ocupando mais armazenamento do que VARCHAR(MAX)?

3 respostas

relate perguntas