Melhores práticas para conectar bancos de dados que estão em diferentes regiões geográficas

Question

WileCau

Asked: 2013-07-31 03:20:34 +0800 CST2013-07-31 03:20:34 +0800 CST 2013-07-31 03:20:34 +0800 CST

Como selecionar em uma tabela sem incluir valores de coluna repetidos?

772

Em uma pergunta anterior Como mesclar conjuntos de dados sem incluir linhas redundantes? Perguntei sobre a filtragem de dados históricos redundantes durante a importação, mas @DavidSpillett respondeu corretamente que não poderia fazer o que estava tentando fazer.

Em vez de filtrar a tabela durante a importação, agora quero criar uma exibição na tabela que retorne apenas os registros em que o preço foi alterado.

Aqui está o cenário original reformulado para atender a esta pergunta:

Temos uma tabela de preços históricos dos itens. A tabela contém linhas onde o mesmo preço é registrado para várias datas. Quero criar uma visão sobre esses dados que mostre apenas as alterações de preço ao longo do tempo, portanto, se um preço mudar de A para BI, quero vê-lo, mas se "mudar" de B para B, não quero vê-lo .

Exemplo: se o preço ontem foi $ 1, e o preço hoje é $ 1, e não houve outras mudanças de preço, então o preço hoje pode ser inferido do preço ontem, então eu só preciso do registro de ontem.

Exemplo ( http://sqlfiddle.com/#!3/c95ff/1 ):

Table data:

Effective            Product  Kind  Price
2013-04-23T00:23:00  1234     1     1.00
2013-04-24T00:24:00  1234     1     1.00 -- redundant, implied by record 1
2013-04-25T00:25:00  1234     1     1.50
2013-04-26T00:26:00  1234     1     2.00
2013-04-27T00:27:00  1234     1     2.00 -- redundant, implied by record 4
2013-04-28T00:28:00  1234     1     1.00 -- not redundant, price changed back to 1.00

Expected view data:

Effective            Product  Kind  Price
2013-04-23T00:23:00  1234     1     1.00
2013-04-25T00:25:00  1234     1     1.50
2013-04-26T00:26:00  1234     1     2.00
2013-04-28T00:28:00  1234     1     1.00

Minha tentativa inicial usou ROW_NUMBER:

SELECT
    Effective,
    Product,
    Kind,
    Price
FROM
(
    SELECT
        History.*,
        ROW_NUMBER() OVER
        (
            PARTITION BY
                Product,
                Kind,
                Price
            ORDER BY
                Effective ASC
        ) AS RowNumber
    FROM History
) H
WHERE RowNumber = 1
ORDER BY Effective

Que retornou:

Effective               Product  Kind  Price
2013-04-23T00:23:00     1234     1     1.00
                                             -- not 2013-04-24, good
2013-04-25T00:25:00     1234     1     1.50
2013-04-26T00:26:00     1234     1     2.00
                                             -- not 2013-04-27, good
                                             -- not 2013-04-28, bad

Tentei pesquisar por uma pergunta/resposta semelhante, mas é difícil descobrir como formular a pesquisa, um exemplo vale muitas palavras.

Qualquer sugestão é apreciada. Obrigado

5 respostas

Voted

Paul White · Answer 1 · 2013-08-01T00:25:05+08:00

SQLfiddle

SELECT H.*
FROM History AS H
OUTER APPLY
(
    SELECT TOP (1)
        H2.Price
    FROM History AS H2
    WHERE
        H2.Product = H.Product
        AND H2.Kind = H.Kind
        AND H2.Effective < H.Effective
    ORDER BY
        H2.Effective DESC
) AS X
WHERE
    NOT EXISTS (SELECT X.Price INTERSECT SELECT H.Price);

Plano de execução

Este é um bom plano de execução para o pequeno número de linhas fornecido na pergunta. Para uma tabela maior, o índice ideal para esta consulta é:

CREATE UNIQUE INDEX [dbo.History Product, Kind, Effective]
ON dbo.History (Product, Kind, Effective DESC)
INCLUDE (Price);

Plano de execução 2

Esse índice é essencialmente as chaves de índice agrupadas em uma ordem mais útil. Dependendo de como a tabela é usada para outras consultas, pode ser melhor substituir o índice clusterizado em vez de criar esse novo índice.

Não use porcentagens de custo estimado em lote para comparar consultas diferentes. Esta não é uma comparação válida em geral. Os custos são sempre estimativas do otimizador e não devem ser usados dessa forma. Verifique as métricas de desempenho reais (tempo decorrido, E/S, uso de CPU, uso de memória) de todas as maneiras, mas não confie nas porcentagens.

Se esta consulta ou aquela baseada ROW_NUMBERé mais eficiente depende da distribuição dos dados e de outros fatores. Cada um tem suas vantagens e desvantagens. Essa consulta tem vantagens quando há muitas linhas para cada combinação (produto, tipo).

AK_ · Answer 2 · 2013-07-31T06:53:48+08:00

AK_

2013-07-31T06:53:48+08:002013-07-31T06:53:48+08:00

SELECT  *
FROM   (SELECT TOP 1 *
        FROM    History
        ORDER BY Effective ASC) AS f

UNION ALL

SELECT  *
FROM    History AS a
WHERE   a.Price <> (SELECT TOP 1 Price
                    FROM    History AS b
                    WHERE   b.Effective < a.Effective 
                    ORDER BY Effective DESC) 

ORDER BY Effective ASC ;

Teste no SQL-Fiddle

Plano de execução

5

WileCau · Answer 3 · 2013-07-31T21:33:21+08:00

Obrigado a @JonSeigel por me direcionar para Query (duração) diferente entre alteração de valor de dados . Estou postando uma versão modificada de sua resposta aqui porque meu problema era um pouco diferente (necessário PARTITION BYno ROW_NUMBER), então talvez alguém ache a variante útil. Se você achar esta resposta útil, vote na resposta de Jon, porque eu não teria chegado a isso sem ela.

Em meus testes de tempo bastante básicos em uma tabela contendo ~ 3 milhões de registros, esta solução é cerca de 3 vezes mais rápida que a resposta de @AK_ .

Esta é a consulta:

WITH a AS
(
  SELECT
    History.*,
    ROW_NUMBER() OVER (PARTITION BY Product, Kind ORDER BY Effective ASC) AS RN
  FROM History
)
SELECT
  a1.Effective,
  a1.Product,
  a1.Kind,
  a1.Price
FROM a a1
LEFT OUTER JOIN a a2
  ON a2.RN = a1.RN - 1
    AND a2.Product = a1.Product
    AND a2.Kind = a1.Kind
WHERE
  (a1.Price <> a2.Price)
  OR (a2.RN IS NULL)

Plano de execução

Para um número maior de linhas:

Plano de execução 2

As classificações podem ser eliminadas usando o índice:

CREATE UNIQUE INDEX [dbo.History Product, Kind, Effective]
ON dbo.History (Product, Kind, Effective)
INCLUDE (Price);

Plano de execução 3

Delux · Answer 4 · 2013-07-31T06:26:19+08:00

Delux

2013-07-31T06:26:19+08:002013-07-31T06:26:19+08:00

O que é necessário é uma solução LEAD/LAG implementada em 2008. Infelizmente, ela não foi disponibilizada até 2012. Encontrei algumas implementações realmente boas no SQLAuthority . Uma comparação pode ser feita entre o LEAD e o valor atual e a linha retornada onde eles são diferentes.

2

njvds · Answer 5 · 2013-08-08T09:36:52+08:00

njvds

2013-08-08T09:36:52+08:002013-08-08T09:36:52+08:00

Para Sql Server 2012 usando Lag ()

;with h as(
SELECT  Effective,
    Product,
    Kind,
    Price, 
    lag (price, 1, 0) OVER (PARTITION BY product,kind order by Effective) as prevprice
FROM History )
select Effective, Product, Kind, Price
 from h where (prevprice <> price or prevprice = 0.00)

2

Como selecionar em uma tabela sem incluir valores de coluna repetidos?

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Conceder acesso a todas as tabelas para um usuário

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

Como selecionar em uma tabela sem incluir valores de coluna repetidos?

5 respostas

relate perguntas