SQL Server - Como as páginas de dados são armazenadas ao usar um índice clusterizado

Question

Mathieu Guindon

Asked: 2016-09-23 12:48:37 +0800 CST2016-09-23 12:48:37 +0800 CST 2016-09-23 12:48:37 +0800 CST

É possível combinar 7 fontes sem UNION?

772

Eu tenho uma tabela de origem que se parece essencialmente com isso:

Código de empregado
Data de início da semana
Horas Trabalhadas Dia1
Horas Trabalhadas Dia2
Horas Trabalhadas Dia3
Horas Trabalhadas Dia 4
Horas Trabalhadas Dia5
Horas TrabalhadasDia6
Horas TrabalhadasDia7

A tabela real tem algo como 500 colunas numeradas (na verdade não as contei - existem vários e numerosos campos numerados de 1 a 7 e, em seguida, outro punhado numerado de 1 a 25, vezes 7) por dia da semana (não, esse não é o meu projeto) , e atualmente há algo como 38.600 linhas (crescendo a cada semana).

Eu tenho um pacote SSIS que está tentando normalizar esses dados... que atualmente se parece com isso:

união todos

Cada "origem" está selecionando um conjunto de colunas numeradas da mesma tabela de origem, e o componente UNION ALL combina as 7 origens em uma, resultando em cerca de 258.900 linhas.

O restante do fluxo de trabalho adiciona algumas colunas calculadas, procura chaves substitutas (por exemplo EmployeeCode, é usado para pesquisar um EmployeeId, e então a data é calculada e usada para procurar um TimeId) e, em seguida, as linhas "modificadas" são atualizadas e as "novas" uns são inseridos em uma tabela normalizada; linhas inalteradas não terminam em lugar nenhum.

Existe alguma maneira melhor (por exemplo, um pouco menos pesado na pressão da memória) para normalizar os dados de origem?

1 respostas

Voted

Hannah Vernon · Answer 1 · 2016-09-24T05:45:38+08:00

Sem a definição completa da tabela, é difícil fornecer uma resposta perfeita. Porém, na tentativa de mostrar as diferenças em uma reprodução limitada, com uma quantidade muito pequena de dados, criei o seguinte testbed:

IF OBJECT_ID('tempdb..#src') IS NOT NULL
DROP TABLE #src;
CREATE TABLE #src
(
    EmployeeCode INT NOT NULL
    , WeekStartDate DATE NOT NULL
    , HoursDay1 INT NOT NULL
    , HoursDay2 INT NOT NULL
    , HoursDay3 INT NOT NULL
    , HoursDay4 INT NOT NULL
    , HoursDay5 INT NOT NULL
    , HoursDay6 INT NOT NULL
    , HoursDay7 INT NOT NULL
    , Widget1Day1 INT NOT NULL
    , Widget1Day2 INT NOT NULL
    , Widget1Day3 INT NOT NULL
    , Widget1Day4 INT NOT NULL
    , Widget1Day5 INT NOT NULL
    , Widget1Day6 INT NOT NULL
    , Widget1Day7 INT NOT NULL
    , Widget2Day1 INT NOT NULL
    , Widget2Day2 INT NOT NULL
    , Widget2Day3 INT NOT NULL
    , Widget2Day4 INT NOT NULL
    , Widget2Day5 INT NOT NULL
    , Widget2Day6 INT NOT NULL
    , Widget2Day7 INT NOT NULL
    , PRIMARY KEY CLUSTERED (WeekStartDate, EmployeeCode)
);
GO
INSERT INTO #src (EmployeeCode, WeekStartDate
    , HoursDay1, HoursDay2, HoursDay3, HoursDay4, HoursDay5, HoursDay6, HoursDay7
    , Widget1Day1, Widget1Day2, Widget1Day3, Widget1Day4, Widget1Day5, Widget1Day6, Widget1Day7
    , Widget2Day1, Widget2Day2, Widget2Day3, Widget2Day4, Widget2Day5, Widget2Day6, Widget2Day7
    )
VALUES (1, '2016-09-18'
    , 0, 8, 8, 8, 8, 8, 0
    , ABS(CHECKSUM(NEWID())), ABS(CHECKSUM(NEWID())), ABS(CHECKSUM(NEWID())), ABS(CHECKSUM(NEWID())), ABS(CHECKSUM(NEWID())), ABS(CHECKSUM(NEWID())), ABS(CHECKSUM(NEWID()))
    , ABS(CHECKSUM(NEWID())), ABS(CHECKSUM(NEWID())), ABS(CHECKSUM(NEWID())), ABS(CHECKSUM(NEWID())), ABS(CHECKSUM(NEWID())), ABS(CHECKSUM(NEWID())), ABS(CHECKSUM(NEWID()))
    );

Abaixo estamos comparando as duas consultas; o primeiro usa o CROSS APPLYmétodo, detalhado por mim em SQLServerScience.com , e o segundo usa o UNION ALLmétodo.

SELECT s.WeekStartDate
    , s.EmployeeCode
    , ItemsByDay.DayOfWeekName
    , ItemsByDay.HoursWorked
    , ItemsByDay.Widget1
    , ItemsByDay.Widget2
FROM #src s
CROSS APPLY (VALUES ('Sunday', HoursDay1, Widget1Day1, Widget2Day1)
    , ('Monday', HoursDay2, Widget1Day2, Widget2Day2)
    , ('Tuesday', HoursDay3, Widget1Day3, Widget2Day3)
    , ('Wednesday', HoursDay4, Widget1Day4, Widget2Day4)
    , ('Thursday', HoursDay5, Widget1Day5, Widget2Day5)
    , ('Friday', HoursDay6, Widget1Day6, Widget2Day6)
    , ('Saturday', HoursDay7, Widget1Day7, Widget2Day7)
    ) ItemsByDay(DayOfWeekName, HoursWorked, Widget1, Widget2);


SELECT s.EmployeeCode
    , s.WeekStartDate
    , 'Sunday'
    , s.HoursDay1
    , s.Widget1Day1
    , s.Widget2Day1
FROM #src s
UNION ALL
SELECT s.EmployeeCode
    , s.WeekStartDate
    , 'Monday'
    , s.HoursDay2
    , s.Widget1Day2
    , s.Widget2Day2
FROM #src s
UNION ALL
SELECT s.EmployeeCode
    , s.WeekStartDate
    , 'Tuesday'
    , s.HoursDay3
    , s.Widget1Day3
    , s.Widget2Day3
FROM #src s
UNION ALL
SELECT s.EmployeeCode
    , s.WeekStartDate
    , 'Wednesday'
    , s.HoursDay4
    , s.Widget1Day4
    , s.Widget2Day4
FROM #src s
UNION ALL
SELECT s.EmployeeCode
    , s.WeekStartDate
    , 'Thursday'
    , s.HoursDay5
    , s.Widget1Day5
    , s.Widget2Day5
FROM #src s
UNION ALL
SELECT s.EmployeeCode
    , s.WeekStartDate
    , 'Friday'
    , s.HoursDay6
    , s.Widget1Day6
    , s.Widget2Day6
FROM #src s
UNION ALL
SELECT s.EmployeeCode
    , s.WeekStartDate
    , 'Saturday'
    , s.HoursDay7
    , s.Widget1Day7
    , s.Widget2Day7
FROM #src s;

Primeira coisa a notar, CROSS APPLYé mais fácil de olhar. Isso já me deixa feliz.

Vamos verificar os planos de execução para as duas variantes:

A UNION ALLvariante verifica a tabela de origem 7 vezes, enquanto a variante CROSS APPLYusa uma única verificação de tabela. Ao usar a aplicação cruzada, estamos #Vencendo.

Vamos adicionar mais dados:

/* create a table with 2 years worth of week start dates */
IF OBJECT_ID('tempdb..#Weeks') IS NULL
BEGIN
    CREATE TABLE #Weeks
    (
        WeekStart DATE NOT NULL
        PRIMARY KEY CLUSTERED
    );

    INSERT INTO #Weeks (WeekStart)
    SELECT TOP(104) DATEADD(DAY, (ROW_NUMBER() OVER (ORDER BY o1.name) - 1) * 7, '2016-01-03')
    FROM sys.objects o1
        CROSS JOIN sys.objects o2;
END

/* remove the single row from the source table we inserted above */
TRUNCATE TABLE #src;

/* insert a load of rows into the #src table */
INSERT INTO #src (EmployeeCode, WeekStartDate, HoursDay1, HoursDay2, HoursDay3, HoursDay4, HoursDay5, HoursDay6, HoursDay7)
SELECT ABS(CHECKSUM(NEWID()))
    , w.WeekStart
    , 0, 8, 8, 8, 8, 8, 0
FROM #Weeks w
    CROSS JOIN sys.objects o1;

No meu sistema, o código acima gerou cerca de 85.000 linhas. Os planos para as duas consultas agora são:

O SQL Sentry Plan Explorer mostra as seguintes informações resumidas, que são inestimáveis:

Isso diz que a CPU é usada mais intensamente pelo CROSS APPLY, porém há 7 vezes mais I/O usado pela UNION ALLvariante.

É possível combinar 7 fontes sem UNION?

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

É possível combinar 7 fontes sem UNION?

1 respostas

relate perguntas