Sou novo no SQL Server. Recentemente aprendi que a ordem de execução é:
From
Where
Group By
Having
Select
Order By
Onde as subconsultas correlacionadas e a aplicação cruzada se encaixam na ordem de execução?
Eu tenho uma consulta onde tenho subconsulta correlacionada na cláusula select. A consulta externa sem a cláusula where retorna 10k linhas e depois que a cláusula where é aplicada, ela retorna 50 linhas. A subconsulta correlacionada é executada 10k vezes ou 50 vezes quando a consulta externa tem a cláusula where?
De acordo com a ordem lógica de execução, ele deve ser executado apenas 50 vezes, pois a instrução select é uma das últimas a ser executada. Mas meu amigo disse que ele executa 10k vezes, pois o otimizador executa isso durante a ordem lógica de execução "De". Alguma ideia?
Um novo recurso do modelo relacional foi a separação da representação lógica de dados (tabelas, consultas) da física (arquivos de disco, execução em tempo de execução). A lista que você deu é a sequência lógica das cláusulas de uma consulta. Ele não representa a sequência física na qual o mecanismo de tempo de execução é executado.
Existe um componente do SGBD chamado otimizador de consulta (QO). Seu trabalho é traduzir a definição lógica da saída desejada, ou seja, a consulta SQL, em uma implementação física razoavelmente eficiente. É livre para reorganizar as partes da consulta em qualquer configuração comprovadamente equivalente.
Por exemplo, se a consulta tiver um ORDER BY o QO pode decidir realizar uma ordenação ao final da execução. Alternativamente, no início, ele pode ler dados que já estão na ordem desejada devido a um índice. Duas implementações físicas muito diferentes que dão o mesmo resultado lógico.
O processo de escolha da implementação física é conhecido como planejamento de consultas. É um tema profundo e fascinante. Atualmente, a maioria dos SGBDs usa um otimizador baseado em custo. Listas de planos alternativos são geradas, o custo de cada um é avaliado de acordo com alguma função de custo interna proprietária, e o mais barato é escolhido para ser executado para a consulta. O otimizador do SQL Server é baseado na estrutura Cascades. Existem muitos recursos na web que explicam isso.
Para responder à sua pergunta real, logicamente as subconsultas em geral se encaixam em qualquer parte do SQL em que são escritas. Se eles estiverem embutidos no FROM (
..from T1 inner join (select x from t2) as y..
), eles são considerados parte do FROM. Se no SELECT (select a, (select b from c where d='e') as f, g, h..
) fazem parte do SELECT. Fisicamente, no entanto, eles são avaliados onde quer que o otimizador considere melhor fazê-lo."A subconsulta correlacionada é executada 10k vezes ou 50 vezes" - pode ser uma ou nenhuma delas. Ele pode ser executado uma vez e armazenado em cache dentro do tempo de execução. Dependeria do SQL preciso, das definições da tabela, do número de linhas envolvidas em cada tabela, de quais opções são definidas em tempo de compilação e em tempo de execução. Se você quiser uma explicação completa, faça uma nova pergunta que inclua as definições de todas as tabelas, índices e restrições. Copie o plano de execução real para https://www.brentozar.com/pastetheplan/ . Há muitos frequentadores aqui no DBA.SE que podem explicar o que isso significa.
As subconsultas apresentam desafios de otimização adicionais. Há um artigo "Execution Strategies for SQL Subqueries" de Mostafa Elhemali et al que achei interessante e legível.