Como o Yelp calcula com eficiência a distância no banco de dados?

Question

Jez

Asked: 2016-12-13 04:17:15 +0800 CST2016-12-13 04:17:15 +0800 CST 2016-12-13 04:17:15 +0800 CST

CROSS JOIN com PIVOT posterior indo bem devagar

772

Eu tenho uma operação que está indo muito devagar, provavelmente porque meu CROSS JOINprimeiro cria uma tonelada de linhas para o SQL Server trabalhar, que são posteriormente GROUPeditadas e PIVOTtransformadas em muito menos linhas e um monte de colunas. O objetivo é obter as "vezes em que cada registro foi baixado" por "nome exclusivo da organização", onde os nomes exclusivos da organização são as OrganizationNameentradas exclusivas na AdamUsertabela e as vezes baixadas é o número de entradas associadas na MaintenanceJobHistorytabela. Por fim, Recordé unido a cada linha para gerar mais informações sobre esse registro. Aqui está a consulta:

SELECT *
FROM (
    SELECT
        rec.[Id]                                      AS RecordId,
        CONCAT('Downloads_', usr.[OrganizationName])  AS OrganizationName,
        COUNT(hist.[Id])                              AS TimesDownloaded  -- To be aggregated by PIVOT
    FROM (
        SELECT
            innerRec.[Id]
        FROM
            [dbo].[Record] innerRec
        INNER JOIN
            [dbo].[RecordClassificationLink] innerLnk ON innerLnk.[RecordId] = innerRec.[Id]
        -- WHERE (classification ID is foo or bar), for optional classification filtering
        GROUP BY
            innerRec.[Id]
        -- HAVING COUNT(innerLnk.ClassificationId) = (number of specified classifications), for optional classification filtering
    ) rec
    CROSS JOIN [dbo].[AdamUser] usr
    LEFT JOIN (
        SELECT * FROM [dbo].[MaintenanceJobHistory] WHERE [CreatedOn] > '2016-01-01 12:00:00' AND [CreatedOn] < '2016-12-01 12:00:00'
    ) hist ON hist.[AccessingUser] = usr.[Name] AND hist.[RecordId] = rec.[Id]
    GROUP BY
        rec.[Id], usr.[OrganizationName]
) srcTable
PIVOT  -- Pivot around columns outside aggregation fn, eg. heading column [OrganizationName] & all other columns: [RecordId]
(
    MIN(srcTable.[TimesDownloaded]) FOR [OrganizationName] IN (...~200 columns...)
) pivotTable
INNER JOIN [dbo].[Record] outerRec ON outerRec.[Id] = pivotTable.[RecordId]

E aqui está o plano de execução:

https://www.brentozar.com/pastetheplan/?id=ry8tXM3mg

Ele me fornece a saída correta, mas notei que a operação Sort antes do Stream Aggregate está demorando muito e se espalha em arquivos tempdb. Pode ser por isso que a consulta leva ~ 5 minutos com as ~ 200 colunas que tenho para o conjunto de dados normal, enquanto meu conjunto de dados de teste com 6 colunas PIVOTleva apenas meio minuto. Em termos de quantas linhas está lidando, as duas tabelas sendo CROSS JOINed ( Recorde AdamUser) têm 38397 e 1017 linhas, respectivamente.

Existe uma maneira de acelerar isso ou é necessário demorar tanto para o número de linhas e colunas que tenho?

1 respostas

Voted

Jez · Answer 1 · 2016-12-14T03:06:37+08:00

Best Answer

Jez

2016-12-14T03:06:37+08:002016-12-14T03:06:37+08:00

Não encontrei nenhuma maneira de acelerar a PIVOToperação - é apenas uma grande operação que leva tempo com muitos dados. A única coisa que fiz que pareceu acelerar um pouco as coisas (talvez o operador de concatenação de adição implementado com mais eficiência no SQL Server) foi mudar CONCAT('Downloads_', usr.[OrganizationName])para 'Downloads_' + usr.[OrganizationName]. O resto parece ser praticamente ótimo.

0

CROSS JOIN com PIVOT posterior indo bem devagar

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

CROSS JOIN com PIVOT posterior indo bem devagar

1 respostas

relate perguntas