Preciso de índices separados para cada tipo de consulta ou um índice de várias colunas funcionará?

Question

beeks

Asked: 2013-09-20 13:56:45 +0800 CST2013-09-20 13:56:45 +0800 CST 2013-09-20 13:56:45 +0800 CST

Atualizando uma tabela local com uma contagem por linha(*) que é um agregado de junções internas no servidor remoto

772

Eu tenho uma tabela de cerca de 350m de linhas em um servidor vinculado no qual adicionei uma coluna INT adicional para servir como uma contagem (external_identification) de registros como resultado de uma junção em PACKAGE e DOC2. Como as tabelas são muito grandes, gostaria de processar a atualização em lotes, para poder avaliar o progresso e evitar a criação de tabelas temporárias enormes. Cada coluna é indexada.

Este seria um bom exemplo em que um CTE entra em jogo? Honestamente, eles me confundem com a maneira como precisam ser escritos, é difícil de visualizar...

As tabelas são estruturadas como:

ServerA (servidor SQL utilitário)
Tabela: CLIP_IDs
Colunas: Package_UUID nvarchar(255), MessageExtractState tinyint, [count] int (350m linhas)

ServerB (principal servidor de banco de dados)
Tabela: PACKAGE
Colunas: Package_UUID nvarchar(255), Package_id bigint (650m linhas)
Tabela: DOC2
Colunas: External_Identification nvarchar(255), Package_id bigint (2b linhas)

Ambos os servidores SQL estão vinculados nos dois sentidos, se iniciar a consulta de um for mais eficiente. Tenho a sensação de que emitir a consulta do ServerA será, pois parece que o plano de execução oferece menos consultas remotas.

Interrompi a consulta abaixo após 26 horas porque acho que tenho um erro de lógica de ~~sintaxe .~~ Alguém pode explicar o que é e oferecer alguma sugestão, por favor?

Executado do ServidorA:

DECLARE @rowsUpdated INT

SET @rowsUpdated = 1

WHILE (@rowsUpdated > 0)
BEGIN
    UPDATE CLIP_IDs
    SET [Count] = x.[count]
    FROM (
        SELECT TOP 50000 c.package_uuid
            ,count(d.external_identification) AS [count]
        FROM CLIP_IDs c
        INNER JOIN ServerB.DATABASE.dbo.package p(NOLOCK) ON c.package_uuid = p.package_uuid
        INNER JOIN ServerB.DATABASE.dbo.doc2 d(NOLOCK) ON p.package_id = d.package_id
        WHERE c.messageextractstate = 1
            AND c.[count] IS NULL
        GROUP BY c.package_uuid
        ) x

    SET @rowsUpdated = @@rowcount

    PRINT N'Finished set of rows: ' + convert(VARCHAR, getdate(), 120)
END

1 respostas

Voted

billinkc · Answer 1 · 2013-09-20T17:35:49+08:00

Dependendo de suas permissões, o servidor vinculado pode estar tentando transmitir todos os dados localmente e, em seguida, fazer a filtragem. Referências

Você pode pular essa dor calculando a contagem agregada total primeiro em uma tabela no servidor local e depois superá-la.

CREATE TABLE #LOCAL
(
    package_uuid nvarchar(255) NOT NULL PRIMARY KEY CLUSTERED
,   [count] bigint
);

INSERT INTO
    #LOCAL
SELECT 
    p.package_uuid
,   count(d.external_identification) AS [count]
FROM 
    ServerB.DATABASE.dbo.package p
    INNER JOIN 
        ServerB.DATABASE.dbo.doc2 d
        ON p.package_id = d.package_id
GROUP BY 
    p.package_uuid;

Tente executar essa consulta localmente no ServerB primeiro para entender a taxa de transferência teórica sem considerar sua rede. Você pode fazer algumas estimativas rápidas e sujas com base nos tamanhos dos dados (500 + 8 por linha na tabela temporária) e, em seguida, depende da sua rede. Espero que tudo isso seja rede local.

Se o tempo for significativamente diferente entre a execução no ServerB e o retorno, talvez seja necessário usar a sintaxe OPENQUERY para forçar a junção no servidor remoto. Código aproximadamente

CREATE TABLE #LOCAL
(
    package_uuid nvarchar(255) NOT NULL PRIMARY KEY CLUSTERED
,   [count] bigint
);

INSERT INTO
    #LOCAL
SELECT
    OQ.package_uuid
,   OQ.[count]
FROM
    OPENQUERY(ServerB,
    N'
    SELECT 
        p.package_uuid
    ,   count(d.external_identification) AS [count]
    FROM 
        DATABASE.dbo.package p
        INNER JOIN 
            DATABASE.dbo.doc2 d
            ON p.package_id = d.package_id
    GROUP BY 
        p.package_uuid
    ) AS OQ;

Atualizando uma tabela local com uma contagem por linha(*) que é um agregado de junções internas no servidor remoto

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Conceder acesso a todas as tabelas para um usuário

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

Atualizando uma tabela local com uma contagem por linha(*) que é um agregado de junções internas no servidor remoto

1 respostas

relate perguntas