Quais são as principais causas de deadlocks e podem ser evitadas?

Question

Jason

Asked: 2016-11-26 20:07:19 +0800 CST2016-11-26 20:07:19 +0800 CST 2016-11-26 20:07:19 +0800 CST

O SQL Server pode executar dois BULK INSERTs em paralelo?

772

Tenho duas consultas pesadas para executar e ambas levam cerca de 1 minuto para serem executadas. Ambas as consultas estão usando o comando Bulk Insert para inserir dados de arquivos de texto em tabelas no banco de dados.

Para as duas tabelas que importam dados, não há índices/gatilhos/restrições, apenas duas tabelas vazias para carregar os dados.

Para carregar os dois arquivos de texto, cada um deles tem cerca de 20 milhões de linhas.

Consulta 1:

Bulk insert table1
FROM 'table1.txt'  WITH
        (FIELDTERMINATOR ='|',
         ROWTERMINATOR = '0x0a',
         TABLOCK)

Consulta 2:

Bulk insert table2
FROM 'table2.txt'  WITH
        (FIELDTERMINATOR ='|',
         ROWTERMINATOR = '0x0a',
         TABLOCK)

Eu quero comparar o tempo de execução em diferentes cenários.

Cenário 1: duas consultas sendo executadas em série em um editor:

Consulta 1: 1 m 18 s
Consulta 2: 1 m 2 s
O tempo total de execução é de 2m 20s.

Cenário 2: cada consulta em um editor separado da mesma instância do Studio, executando simultaneamente:

Consulta 1: 2 m 36 s
Consulta 2: 2 m 09 d
O tempo total de execução é de 2m 40s

Cenário 3: cada consulta em uma instância separada do Studio, executando simultaneamente:

Consulta 1: 2 m 29 s
Consulta 2: 2 m 19 s
O tempo total de execução é de 2m 29s

Embora os cenários 2 e 3 pareçam executar consultas simultaneamente, por que o tempo de execução não mudou muito? Para todos os cenários, o uso da CPU está entre 17% e 21%, o uso do disco é de 50 MB a 70 MB por segundo. Não foram observadas diferenças significativas entre o uso da CPU e do disco.

Eu estou querendo saber o que está acontecendo sob o capô? Como o SQL Server executa essas consultas? Por que o tempo de execução é quase o mesmo para todos os três cenários? Existe alguma maneira de agilizar?

Estou usando o SQL Server 2016 Developer Edition no Windows 10 de 64 bits. Eu tenho quad core i7 e SSD no meu laptop.

Depois de testar mais cenários com 4 consultas rodando juntas, acho que a possível causa do baixo uso de CPU e disco é o hyperthreading com meu Core i7:

Com dois editores executando duas consultas simultaneamente, o uso máximo da CPU é de 25%.
Com 4 editores executando 4 consultas simultaneamente, o uso máximo da CPU é de 50%.

Vocês estão cientes de maneiras de permitir que uma consulta use exclusivamente um núcleo? Desativar o hyperthreading não é uma opção para mim, pois meu ThinkPad T460p não oferece suporte a essa opção no BIOS.

1 respostas

Voted

Jason · Answer 1 · 2016-11-29T06:35:49+08:00

Depois de uma longa e proveitosa discussão com Dan Guzman neste tópico do fórum do MSDN , o esquema de agendamento subjacente finalmente ficou claro para mim. Aqui está uma breve resposta emprestada do tópico acima:

Então, o que está acontecendo aqui é que as 2 conexões do SSMS inicialmente usam o mesmo agendador porque ele tem a menor carga. Os BULK INSERTs então são executados no mesmo agendador, que é o motivo das altas esperas SOS_SCHEDULER_YIELD.

A escolha de qual agendador é usado não é baseada no custo da consulta. O SQL Server (na verdade SOS) basicamente tenta equilibrar a carga de trabalho entre os agendadores examinando a coluna load_factor de sys.dm_os_schedulers .

Quando uma nova tarefa é criada para a execução de uma consulta, o SOS prefere utilizar o mesmo escalonador que usou para a última requisição da sessão. No entanto, ele usará um agendador diferente se o fator de carga do agendador preferido for maior que uma determinada porcentagem do fator de carga médio do outro agendador.

Uma discussão aprofundada pode ser encontrada no link acima.

Obrigado a todos pela ajuda entusiástica!

O SQL Server pode executar dois BULK INSERTs em paralelo?

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

O SQL Server pode executar dois BULK INSERTs em paralelo?

1 respostas

relate perguntas