Quais são as principais causas de deadlocks e podem ser evitadas?

Question

Frederik Vanderhaegen

Asked: 2019-01-23 01:46:45 +0800 CST2019-01-23 01:46:45 +0800 CST 2019-01-23 01:46:45 +0800 CST

O loop aninhado tem estimativas muito baixas devido a dados distorcidos

772

No SQL Server 2016 SP2, temos uma consulta que tem uma estimativa muito baixa no operador de loop aninhado. Devido à estimativa baixa, essa consulta também é derramada no tempdb.

Se estiver correto, o SQL Server 2014+ usa a estimativa de histograma grosseiro para calcular o número estimado de linhas em uma junção.
Mas quando executo a consulta, o SQL Server usa o vetor de densidade para calcular o número de linhas estimadas.
O SQL Server está usando apenas a estimativa de histograma grosseiro se não houver nenhuma wherecláusula?

Normalmente eu usaria estatísticas filtradas para melhorar as estimativas quando tenho uma tabela com dados distorcidos. Mas neste caso isso não parece funcionar.

Existe uma maneira de melhorar as estimativas no loop aninhado?

Usando o código a seguir, você pode reproduzir os dados:

create table MyTable
(
    id int identity,
    field varchar(50),
    constraint  pk_id primary  key clustered (id)
)
go

create table SkewedTable
(
    id int identity,
    startdate datetime,
    myTableId int,
    remark varchar(50),
    constraint  pk_id primary  key clustered (id)
)

set nocount on

insert into MyTable select top 1000 [name] from master..spt_values
go

insert into SkewedTable select GETDATE(),FLOOR(RAND()*(1000))+1,REPLICATE(N'A',FLOOR(RAND()*(40))+1)
go 1000

insert into SkewedTable select GETDATE(),FLOOR(RAND()*(1000))+1,REPLICATE(N'A',FLOOR(RAND()*(40))+1)
go 

CREATE NONCLUSTERED INDEX [ix_field] ON [dbo].[MyTable]([field] ASC)
go

CREATE NONCLUSTERED INDEX [ix_mytableid] ON [dbo].[SkewedTable]([myTableId] ASC)
go

--95=varchar in sys.messages
set nocount off

;with cte as
( 
    select GETDATE() as startdate ,95 as myTableId, REPLICATE(N'B',FLOOR(RAND()*(40))+1) as remark
    union all
    select * from cte
)
insert into skewedtable select top 40000 * from cte
option(maxrecursion 0)
go

update statistics mytable with fullscan
go

update statistics skewedtable with fullscan
go

2 respostas

Voted

Paul White · Answer 1 · 2019-01-23T02:31:38+08:00

Normalmente eu usaria estatísticas filtradas para melhorar as estimativas quando tenho uma tabela com dados distorcidos. Mas neste caso isso não parece funcionar.

Você deve achar útil a seguinte estatística filtrada:

CREATE STATISTICS [stats id (field=varchar)]
ON dbo.MyTable (id)
WHERE field = 'varchar'
WITH FULLSCAN;

Isso fornece ao otimizador informações sobre a distribuição de idvalores que correspondem field = 'varchar' a , fornecendo uma estimativa de seletividade muito melhor para a junção:

O plano de execução acima mostra estimativas exatamente corretas com a estatística filtrada, levando o otimizador a escolher uma junção de hash (por motivos de custo).

Esta informação de distribuição é muito mais importante do que o método exato usado pelo estimador para combinar os histogramas de junção ( alinhamento fino ou grosseiro ), ou mesmo as suposições gerais (por exemplo, junção simples, contenção de base).

Se você não puder fazer isso, suas opções são amplamente descritas na resposta à sua pergunta anterior Classificar spills to tempdb devido a varchar(max) . Minha preferência provavelmente seria uma tabela temporária intermediária.

Randi Vertongen · Answer 2 · 2019-01-23T03:28:00+08:00

Concordo completamente com o índice filtrado, esta resposta é adicionada para expandir a outra opção que @PaulWhite mencionou, para usar uma tabela temporária intermediária e, consequentemente, se livrar do SORToperador

Você pode adicionar um índice ou alterar o índice existente:

CREATE INDEX IX_SkewedTable_MytableId_startdate
ON SkewedTable(myTableId,startdate)
INCLUDE(remark);

Insira os valores em uma tabela temporária intermediária

CREATE TABLE  #temp2(param int);
INSERT INTO  #temp2(param)
SELECT t.id 
FROM mytable t 
WHERE t.field = 'varchar';

Adicionar um índice na tabela temporária

CREATE INDEX IX_ID on #temp2(param);

E, em seguida, use um CTE para remover o operador de classificação do plano de consulta

;WITH CTE AS
(
select TOP(999999999999)
s.myTableId,s.id,s.remark from 
SkewedTable s
order by startdate
)
SELECT s.id , s.remark
from CTE  s
INNER JOIN #temp2 
on s.myTableId = #temp2.param
OPTION(RECOMPILE)

Conforme mencionado por @Forrest para diminuir a classificação aqui

Resultado:

O que remove o operador de classificação.

O loop aninhado tem estimativas muito baixas devido a dados distorcidos

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

O loop aninhado tem estimativas muito baixas devido a dados distorcidos

2 respostas

relate perguntas