Quais são as principais causas de deadlocks e podem ser evitadas?

Question

John

Asked: 2014-01-31 12:16:45 +0800 CST2014-01-31 12:16:45 +0800 CST 2014-01-31 12:16:45 +0800 CST

T-SQL otimizando uma junção no valor TOP de outra tabela

772

Tenho um data warehouse que passa por uma atualização completa todas as noites, o que pode levar cerca de uma hora para processar 16 milhões de linhas/25 gigas de dados e estamos procurando maneiras de reduzir esse tempo sem usar a abordagem incremental.

O formato básico de nossas consultas é o seguinte, apenas retirei cerca de 20 junções e mais de 30 colunas que também seriam incluídas. As colunas e junções removidas são muito diretas, sem agregação, subconsultas ou outros tipos de cálculo envolvidos. O que resta é a tabela de fatos principal (First_Source_Table) e o ponto de dados mais problemático a ser coletado. Second_Source_Table consiste em muitos registros para cada Account_ID, mas queremos incluir apenas o primeiro registro para cada Account_ID.

Agora minhas restrições. Isso em um ambiente replicado no SQL Server 2008. Infelizmente, não tenho controle sobre as tabelas de origem e, embora possa adicionar novos índices a elas, elas serão perdidas no dia seguinte. Eu tentei calcular uma tabela intermediária de Second_Source_Table antes de fazer a tabela completa, mas como isso precisaria ser recalculado a cada noite, isso não teve um impacto material no tempo de cálculo geral.

O código abaixo funciona, mas se você observar o plano de execução e IO Stats, a lógica associada a Second_Source_Table constitui cerca de 80% de todos os recursos usados, mas alterar esse campo para NULL apenas reduz o tempo de execução pela metade. Também vou apontar novamente que, sendo um ambiente replicado, não há problemas para se preocupar com o bloqueio ou outros usuários gravando nas tabelas em que estamos.

INSERT INTO
    New_Table
SELECT
    First_Source_Table.Account_ID,
    (
        select
            top 1
            Second_Source_Table.Code
        FROM
            Second_Source_Table
        WHERE
            Second_Source_Table.Account_ID = First_Source_Table.Account_ID
        ORDER BY
            Second_Source_Table.ID
    ) as Code
FROM
    First_Source_Table

1 respostas

Voted

Nabil Becker · Answer 1 · 2014-02-01T08:22:22+08:00

Best Answer

Nabil Becker

2014-02-01T08:22:22+08:002014-02-01T08:22:22+08:00

Você pode querer considerar o particionamento em vez de uma consulta escalar.

Então algo como

insert into New_Table
    select
        [fst].Account_ID,
        [sst].Code
    from
        First_Source_Table as [fst]
            inner join (select
                            row_number()    over(
                                partition by Account_ID
                                order by Account_ID ) as [topN],
                            Account_ID,
                            Code
                        from
                            Second_Source_Table) as [sst]
            on     ( [sst].Account_ID = [fst].Account_ID )
    where
        ( [topN] = 1 ) --This is your topN query

2

T-SQL otimizando uma junção no valor TOP de outra tabela

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

T-SQL otimizando uma junção no valor TOP de outra tabela

1 respostas

relate perguntas