Primeiras palavras
Você pode ignorar com segurança as seções abaixo (e incluindo) JOINs: Starting Off se você quiser apenas decifrar o código. O pano de fundo e os resultados servem apenas como contexto. Por favor, olhe o histórico de edições antes de 2015-10-06 se você quiser ver como era o código inicialmente.
Objetivo
Por fim, quero calcular as coordenadas GPS interpoladas para o transmissor ( X
ou Xmit
) com base nos carimbos DateTime dos dados GPS disponíveis na tabela SecondTable
que flanqueiam diretamente a observação na tabela FirstTable
.
Meu objetivo imediato para atingir o objetivo final é descobrir a melhor forma de se juntar FirstTable
para SecondTable
obter esses pontos de tempo de flanco. Mais tarde, posso usar essas informações e calcular coordenadas GPS intermediárias assumindo um ajuste linear ao longo de um sistema de coordenadas equiretangulares (palavras elegantes para dizer que não me importo que a Terra seja uma esfera nessa escala).
Perguntas
- Existe uma maneira mais eficiente de gerar os carimbos de data/hora antes e depois mais próximos?
- Corrigido por mim mesmo, apenas pegando o "depois" e, em seguida, obtendo o "antes" apenas conforme relacionado ao "depois".
- Existe uma maneira mais intuitiva que não envolva a
(A<>B OR A=B)
estrutura.- Byrdzeye forneceu as alternativas básicas, no entanto, minha experiência no "mundo real" não se alinhou com todas as 4 de suas estratégias de junção com o mesmo desempenho. Mas todo o crédito a ele por abordar os estilos alternativos de junção.
- Quaisquer outros pensamentos, truques e conselhos que você possa ter.
- Até agora, tanto byrdzeye quanto Phrancis foram bastante úteis a esse respeito. Achei que o conselho de Phrancis foi excelentemente apresentado e forneceu ajuda em um estágio crítico, então vou dar a ele uma vantagem aqui.
Eu ainda gostaria de qualquer ajuda adicional que eu possa receber em relação à pergunta 3. Os marcadores refletem quem eu acredito que mais me ajudou na pergunta individual.
Definições de tabela
Representação semivisual
PrimeiraTabela
Fields
RecTStamp | DateTime --can contain milliseconds via VBA code (see Ref 1)
ReceivID | LONG
XmitID | TEXT(25)
Keys and Indices
PK_DT | Primary, Unique, No Null, Compound
XmitID | ASC
RecTStamp | ASC
ReceivID | ASC
UK_DRX | Unique, No Null, Compound
RecTStamp | ASC
ReceivID | ASC
XmitID | ASC
SegundaTabela
Fields
X_ID | LONG AUTONUMBER -- seeded after main table has been created and already sorted on the primary key
XTStamp | DateTime --will not contain partial seconds
Latitude | Double --these are in decimal degrees, not degrees/minutes/seconds
Longitude | Double --this way straight decimal math can be performed
Keys and Indices
PK_D | Primary, Unique, No Null, Simple
XTStamp | ASC
UIDX_ID | Unique, No Null, Simple
X_ID | ASC
Tabela de detalhes do receptor
Fields
ReceivID | LONG
Receiver_Location_Description | TEXT -- NULL OK
Beginning | DateTime --no partial seconds
Ending | DateTime --no partial seconds
Lat | DOUBLE
Lon | DOUBLE
Keys and Indicies
PK_RID | Primary, Unique, No Null, Simple
ReceivID | ASC
tabela ValidXmitters
Field (and primary key)
XmitID | TEXT(25) -- primary, unique, no null, simple
violino SQL...
...para que você possa brincar com as definições e o código da tabela Esta pergunta é para o MSAccess, mas, como Phrancis apontou, não há um estilo SQL fiddle para o Access. Portanto, você deve poder acessar aqui para ver minhas definições de tabela e código com base na resposta de Phrancis :
http://sqlfiddle.com/#!6/e9942/4 (link externo)
JOINs: Começando
Minha estratégia JOIN atual de "entranhas internas"
Primeiro, crie um FirstTable_rekeyed com a ordem das colunas e a chave primária composta, (RecTStamp, ReceivID, XmitID)
todas indexadas/classificadas ASC
. Também criei índices em cada coluna individualmente. Em seguida, preencha-o assim.
INSERT INTO FirstTable_rekeyed (RecTStamp, ReceivID, XmitID)
SELECT DISTINCT ROW RecTStamp, ReceivID, XmitID
FROM FirstTable
WHERE XmitID IN (SELECT XmitID from ValidXmitters)
ORDER BY RecTStamp, ReceivID, XmitID;
A consulta acima preenche a nova tabela com 153.006 registros e retorna em cerca de 10 segundos.
O seguinte é concluído em um ou dois segundos quando todo esse método é agrupado em um "SELECT Count(*) FROM ( ... )" quando o método de subconsulta TOP 1 é usado
SELECT
ReceiverRecord.RecTStamp,
ReceiverRecord.ReceivID,
ReceiverRecord.XmitID,
(SELECT TOP 1 XmitGPS.X_ID FROM SecondTable as XmitGPS WHERE ReceiverRecord.RecTStamp < XmitGPS.XTStamp ORDER BY XmitGPS.X_ID) AS AfterXmit_ID
FROM FirstTable_rekeyed AS ReceiverRecord
-- INNER JOIN SecondTable AS XmitGPS ON (ReceiverRecord.RecTStamp < XmitGPS.XTStamp)
GROUP BY RecTStamp, ReceivID, XmitID;
-- No separate join needed for the Top 1 method, but it would be required for the other methods.
-- Additionally no restriction of the returned set is needed if I create the _rekeyed table.
-- May not need GROUP BY either. Could try ORDER BY.
-- The three AfterXmit_ID alternatives below take longer than 3 minutes to complete (or do not ever complete).
-- FIRST(XmitGPS.X_ID)
-- MIN(XmitGPS.X_ID)
-- MIN(SWITCH(XmitGPS.XTStamp > ReceiverRecord.RecTStamp, XmitGPS.X_ID, Null))
Consulta JOIN anterior "inner guts"
Primeiro (rápido... mas não bom o suficiente)
SELECT
A.RecTStamp,
A.ReceivID,
A.XmitID,
MAX(IIF(B.XTStamp<= A.RecTStamp,B.XTStamp,Null)) as BeforeXTStamp,
MIN(IIF(B.XTStamp > A.RecTStamp,B.XTStamp,Null)) as AfterXTStamp
FROM FirstTable as A
INNER JOIN SecondTable as B ON
(A.RecTStamp<>B.XTStamp OR A.RecTStamp=B.XTStamp)
GROUP BY A.RecTStamp, A.ReceivID, A.XmitID
-- alternative for BeforeXTStamp MAX(-(B.XTStamp<=A.RecTStamp)*B.XTStamp)
-- alternatives for AfterXTStamp (see "Aside" note below)
-- 1.0/(MAX(1.0/(-(B.XTStamp>A.RecTStamp)*B.XTStamp)))
-- -1.0/(MIN(1.0/((B.XTStamp>A.RecTStamp)*B.XTStamp)))
Segundo (mais lento)
SELECT
A.RecTStamp, AbyB1.XTStamp AS BeforeXTStamp, AbyB2.XTStamp AS AfterXTStamp
FROM (FirstTable AS A INNER JOIN
(select top 1 B1.XTStamp, A1.RecTStamp
from SecondTable as B1, FirstTable as A1
where B1.XTStamp<=A1.RecTStamp
order by B1.XTStamp DESC) AS AbyB1 --MAX (time points before)
ON A.RecTStamp = AbyB1.RecTStamp) INNER JOIN
(select top 1 B2.XTStamp, A2.RecTStamp
from SecondTable as B2, FirstTable as A2
where B2.XTStamp>A2.RecTStamp
order by B2.XTStamp ASC) AS AbyB2 --MIN (time points after)
ON A.RecTStamp = AbyB2.RecTStamp;
Fundo
Eu tenho uma tabela de telemetria (com o apelido de A) de pouco menos de 1 milhão de entradas com uma chave primária composta baseada em um DateTime
carimbo, uma ID de transmissor e uma ID de dispositivo de gravação. Devido a circunstâncias fora do meu controle, minha linguagem SQL é o Jet DB padrão no Microsoft Access (os usuários usarão 2007 e versões posteriores). Apenas cerca de 200.000 dessas entradas são relevantes para a consulta devido ao ID do transmissor.
Existe uma segunda tabela de telemetria (alias B) que envolve aproximadamente 50.000 entradas com uma única DateTime
chave primária
Na primeira etapa, concentrei-me em encontrar os carimbos de data/hora mais próximos dos carimbos da primeira tabela a partir da segunda tabela.
Resultados do JOIN
Curiosidades que descobri...
...ao longo do caminho durante a depuração
É realmente estranho escrever a JOIN
lógica como FROM FirstTable as A INNER JOIN SecondTable as B ON (A.RecTStamp<>B.XTStamp OR A.RecTStamp=B.XTStamp)
@byrdzeye apontou em um comentário (que desde então desapareceu) é uma forma de junção cruzada. Observe que substituir LEFT OUTER JOIN
no INNER JOIN
código acima parece não causar impacto na quantidade ou identidade das linhas retornadas. Também não consigo deixar de fora a cláusula ON ou dizer ON (1=1)
. Apenas usar uma vírgula para unir (em vez de INNER
ou LEFT OUTER
JOIN
) resulta em Count(select * from A) * Count(select * from B)
linhas retornadas nesta consulta, em vez de apenas uma linha por tabela A, como o JOIN
retorno explícito (A<>B OR A=B). Isso claramente não é adequado. FIRST
não parece estar disponível para uso dado um tipo de chave primária composta.
O segundo JOIN
estilo, embora indiscutivelmente mais legível, sofre por ser mais lento. Isso pode ocorrer porque dois JOIN
s internos adicionais são necessários contra a tabela maior, bem como os dois CROSS JOIN
s encontrados em ambas as opções.
Aparte: Substituir a IIF
cláusula por MIN
/ MAX
parece retornar o mesmo número de entradas.
MAX(-(B.XTStamp<=A.RecTStamp)*B.XTStamp)
funciona para o timestamp "Antes" ( MAX
), mas não funciona diretamente para o "Depois" ( MIN
) da seguinte forma:
MIN(-(B.XTStamp>A.RecTStamp)*B.XTStamp)
porque o mínimo é sempre 0 para a FALSE
condição. Esse 0 é menor do que qualquer pós-época DOUBLE
(do qual um DateTime
campo é um subconjunto no Access e no qual esse cálculo transforma o campo). Os métodos IIF
e MIN
/ MAX
As alternativas propostas para o valor AfterXTStamp funcionam porque a divisão por zero ( FALSE
) gera valores nulos, que as funções de agregação MIN e MAX ignoram.
Próximos passos
Levando isso adiante, desejo encontrar os timestamps na segunda tabela que flanqueiam diretamente os timestamps na primeira tabela e realizar uma interpolação linear dos valores de dados da segunda tabela com base na distância de tempo para esses pontos (ou seja, se o timestamp de a primeira tabela está a 25% do caminho entre o "antes" e o "depois", gostaria que 25% do valor calculado viesse dos dados do valor da 2ª tabela associados ao ponto "depois" e 75% do "antes" ). Usando o tipo de junção revisado como parte das entranhas internas, e após as respostas sugeridas abaixo, eu produzo ...
SELECT
AvgGPS.XmitID,
StrDateIso8601Msec(AvgGPS.RecTStamp) AS RecTStamp_ms,
-- StrDateIso8601MSec is a VBA function returning a TEXT string in yyyy-mm-dd hh:nn:ss.lll format
AvgGPS.ReceivID,
RD.Receiver_Location_Description,
RD.Lat AS Receiver_Lat,
RD.Lon AS Receiver_Lon,
AvgGPS.Before_Lat * (1 - AvgGPS.AfterWeight) + AvgGPS.After_Lat * AvgGPS.AfterWeight AS Xmit_Lat,
AvgGPS.Before_Lon * (1 - AvgGPS.AfterWeight) + AvgGPS.After_Lon * AvgGPS.AfterWeight AS Xmit_Lon,
AvgGPS.RecTStamp AS RecTStamp_basic
FROM ( SELECT
AfterTimestampID.RecTStamp,
AfterTimestampID.XmitID,
AfterTimestampID.ReceivID,
GPSBefore.BeforeXTStamp,
GPSBefore.Latitude AS Before_Lat,
GPSBefore.Longitude AS Before_Lon,
GPSAfter.AfterXTStamp,
GPSAfter.Latitude AS After_Lat,
GPSAfter.Longitude AS After_Lon,
( (AfterTimestampID.RecTStamp - GPSBefore.XTStamp) / (GPSAfter.XTStamp - GPSBefore.XTStamp) ) AS AfterWeight
FROM (
(SELECT
ReceiverRecord.RecTStamp,
ReceiverRecord.ReceivID,
ReceiverRecord.XmitID,
(SELECT TOP 1 XmitGPS.X_ID FROM SecondTable as XmitGPS WHERE ReceiverRecord.RecTStamp < XmitGPS.XTStamp ORDER BY XmitGPS.X_ID) AS AfterXmit_ID
FROM FirstTable AS ReceiverRecord
-- WHERE ReceiverRecord.XmitID IN (select XmitID from ValidXmitters)
GROUP BY RecTStamp, ReceivID, XmitID
) AS AfterTimestampID INNER JOIN SecondTable AS GPSAfter ON AfterTimestampID.AfterXmit_ID = GPSAfter.X_ID
) INNER JOIN SecondTable AS GPSBefore ON AfterTimestampID.AfterXmit_ID = GPSBefore.X_ID + 1
) AS AvgGPS INNER JOIN ReceiverDetails AS RD ON (AvgGPS.ReceivID = RD.ReceivID) AND (AvgGPS.RecTStamp BETWEEN RD.Beginning AND RD.Ending)
ORDER BY AvgGPS.RecTStamp, AvgGPS.ReceivID;
...que retorna 152928 registros, correspondendo (pelo menos aproximadamente) ao número final de registros esperados. O tempo de execução é provavelmente de 5 a 10 minutos no meu sistema i7-4790, 16 GB de RAM, sem SSD, Win 8.1 Pro.
Referência 1: o MS Access pode lidar com valores de tempo de milissegundos - realmente e arquivo de origem [08080011.txt]
I must first compliment you on your courage to do something like this with an Access DB, which from my experience is very difficult to do anything SQL-like. Anyways, on to the review.
First join
Your
IIF
field selections might benefit from using a Switch statement instead. It seems to be sometimes the case, especially with things SQL, that aSWITCH
(more commonly known asCASE
in typical SQL) is quite fast when just making simple comparisons in the body of aSELECT
. The syntax in your case would be almost identical, although a switch can be expanded to cover a large chunk of comparisons in one field. Something to consider.A switch can also help readability, in larger statements. In context:
As for the join itself, I think
(A.RecTStamp<>B.XTStamp OR A.RecTStamp=B.XTStamp)
is about as good as you're going to get, given what you are trying to do. It's not that fast, but I wouldn't expect it to be either.Second join
You said this is slower. It's also less readable from a code standpoint. Given equally satisfactory result sets between 1 and 2, I'd say go for 1. At least it's obvious what you are trying to do that way. Subqueries are often not very fast (though often unavoidable) especially in this case you are throwing in an extra join in each, which must certainly complicate the execution plan.
One remark, I saw that you used old ANSI-89 join syntax. It's best to avoid that, the performance will be same or better with the more modern join syntax, and they are less ambiguous or easier to read, harder to make mistakes.
Naming things
I think the way your things are named is unhelpful at best, and cryptic at worst.
A, B, A1, B1
etc. as table aliases I think could be better. Also, I think the field names are not very good, but I realize you may not have control over this. I will just quickly quote The Codeless Code on the topic of naming things, and leave it at that..."Next steps" query
I couldn't make much sense of it how it was written, I had to take it to a text editor and do some style changes to make it more readable. I know Access' SQL editor is beyond clunky, so I usually write my queries in a good editor like Notepad++ or Sublime Text. Some of the stylistic changes I applied to make it more readable:
So as it turns out, this is a very complicated query indeed. To make sense of it, I have to start from the innermost query, your
ID
data set, which I understand is the same as your First Join. It returns the IDs and timestamps of the devices where the before/after timestamps are the closest, within the subset of devices you are interested in. So instead ofID
why not call itClosestTimestampID
.Your
Det
join is used only once:The rest of the time, it only joins the values you already have from
ClosestTimestampID
. So instead we should be able to just do this:Maybe not be a huge performance gain, but anything we can do to help the poor Jet DB optimizer will help!
I can't shake the feeling that the calculations/algorithm for
BeforeWeight
andAfterWeight
which you use to interpolate could be done better, but unfortunately I'm not very good with those.One suggestion to avoid crashing (although it's not ideal depending on your application) would be to break out your nested subqueries into tables of their own and update those when needed. I'm not sure how often you need your source data to be refreshed, but if it is not too often you might think of writing some VBA code to schedule an update of the tables and derived tables, and just leave your outermost query to pull from those tables instead of the original source. Just a thought, like I said not ideal but given the tool you may not have a choice.
Everything together:
Planos de execução do SQL Server (porque o Access não pode mostrar isso)
Sem a ordem final porque é caro:
Clustered Index Scan [ReceiverDetails].[PK_ReceiverDetails] Custo 16%
Clustered Index Seek [FirstTable].[PK_FirstTable] Custo 19%
Clustered Index Seek [SecondTable].[PK_SecondTable] Custo 16%
Clustered Index Seek [SecondTable].[PK_SecondTable] Custo 16%
Clustered Index Seek [SecondTable].[PK_SecondTable] [TL2] Custo 16%
Clustered Index Seek [SecondTable].[PK_SecondTable] [TL1] Custo 16%
Com a ordem final por:
Ordenar Custo 36%
Varredura de Índice Clusterizado [ReceiverDetails].[PK_ReceiverDetails] Custo 10% Busca de
Índice Clusterizado [FirstTable].[PK_FirstTable] Custo 12%
Busca de índice clusterizado [SecondTable].[PK_SecondTable] Custo 10% Busca de
índice clusterizado [SecondTable].[PK_SecondTable] Custo Busca de índice clusterizado de 10% [SecondTable].[PK_SecondTable] [TL2] Custo Busca de índice agrupado
de 10%
[SecondTable].[ PK_SecondTable] [TL1] Custo 10%
Código:
Teste de desempenho da minha consulta em relação à consulta que contém a junção cruzada.
FirstTable was loaded with 13 records and SecondTable with 1,000,000.
The execution plans for my query didn't change much from what has been posted.
Execution plans for the cross join:
Nested Loops Cost 81% using
INNER JOIN SecondTable AS B ON (A.RecTStamp <> B.XTStamp OR A.RecTStamp = B.XTStamp
Nested Loops drops to 75% if using
CROSS JOIN SecondTable AS B' or ',SecondTable AS B
Stream Aggregate 8%
Index Scan [SecondTable][UK_ID][B] 6%
Table Spool 5%
Several other Clustered Index Seek and Index Seeks (similar to my query as posted) with Cost of 0%.
Execution time is .007 and 8-9 seconds for my query and the CROSS JOIN.
Cost comparison 0% and 100%.
I loaded FirstTable with 50,000 records and a single record to ReceiverDetails for a join condition and ran my query.
50,013 returned between 0.9 and 1.0 second.
I ran second query with the cross join and allowed it to run for about 20 minutes before I killed it.
If the cross join query is filtered to return only the original 13, execution time is again, 8-9 seconds.
Placement of the filter condition was at inner most select, outer most select and both. No difference.
There is a difference between these two join conditions in favor of the CROSS JOIN, the first uses a predicate, the CROSS JOIN does not:
INNER JOIN SecondTable AS B ON (A.RecTStamp <> B.XTStamp OR A.RecTStamp = B.XTStamp) CROSS JOIN SecondTable AS B
Adding a second answer, not better than the first but without changing any of the requirements presented, there are a few of ways to beat Access into submission and appear snappy. 'Materialize' the complications a bit at a time effectivity using 'triggers'. Access tables do not have triggers so intercept and inject the crud processes.