AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 8028
Accepted
adopilot
adopilot
Asked: 2011-11-18 06:35:32 +0800 CST2011-11-18 06:35:32 +0800 CST 2011-11-18 06:35:32 +0800 CST

O que é melhor para grandes alterações em uma tabela: DELETE e INSERT sempre ou UPDATE existente?

  • 772

Estou fazendo um projeto onde preciso alterar em torno de 36K registros em uma tabela diariamente. Estou me perguntando o que terá um desempenho melhor:

  1. excluir linhas e inserir novas, ou
  2. atualizar linhas já existentes

Para mim, é mais fácil excluir todas as linhas e inserir novas, mas se isso fragmentar a tabela e os índices e afetar o desempenho, prefiro fazer atualizações sempre que possível e excluir/inserir somente quando necessário.

Este será um serviço noturno e não pretendo melhorar a velocidade do processo em si. Estou mais preocupado com o desempenho das consultas nessa tabela em geral, onde já tenho 89 milhões de registros e como esse processo noturno afetará isso.

Devo excluir/inserir registros ou atualizar os existentes (quando possível) para este processo noturno?

sql-server sql-server-2005
  • 4 4 respostas
  • 60366 Views

4 respostas

  • Voted
  1. Best Answer
    Dharmendar Kumar 'DK'
    2011-11-19T14:40:11+08:002011-11-19T14:40:11+08:00

    Realmente depende de quanto dos dados está mudando. Digamos que esta tabela tenha 20 colunas. E você também tem 5 índices - cada um em um diff. coluna.

    Agora, se os valores em todas as 20 colunas estiverem mudando OU mesmo se os dados em 5 colunas estiverem mudando e essas 5 colunas estiverem todas indexadas, talvez seja melhor "excluir e inserir". Mas se apenas 2 colunas estiverem mudando e digamos que não fazem parte de nenhum índice não clusterizado, talvez seja melhor "Atualizar" os registros porque, neste caso, apenas o índice clusterizado será atualizado (e os índices não terão que ser atualizado).


    Em pesquisas adicionais, descobri que o comentário acima feito por mim é meio redundante, pois o SQL Server internamente possui 2 mecanismos separados para executar uma atualização. - Uma "atualização no local" (ou seja, alterando o valor de uma coluna para um novo na linha original) ou como uma "ATUALIZAÇÃO não local" (DELETE seguido por um INSERT).

    As atualizações no local são a regra e são executadas, se possível. Aqui as linhas ficam exatamente no mesmo local na mesma página na mesma extensão. Apenas os bytes afetados são alterados. O tlog tem apenas um registro (desde que não haja gatilhos de atualização). As atualizações acontecem se um heap estiver sendo atualizado (e houver espaço suficiente na página). As atualizações também acontecem se a chave de clustering for alterada, mas a linha não precisar ser movida.

    Por exemplo: se você tiver um índice agrupado no sobrenome e tiver os nomes: Able, Baker, Charlie Agora você deseja atualizar Baker para Becker. Nenhuma linha precisa ser movida. Então isso pode acontecer no local. Considerando que, se você precisar atualizar Able para Kumar, as linhas terão que ser deslocadas (mesmo que estejam na mesma página). Nesse caso, o SQL Server fará um DELETE seguido de um INSERT.

    Considerando o exposto, sugiro que você faça um UPDATE normal e deixe o SQL Server descobrir a melhor maneira de fazê-lo internamente.

    Para obter mais detalhes sobre "UPDATE" internos ou quaisquer internos relacionados ao SQL Server, confira o livro de Kalen Delaney, Paul Randal e outros - SQL Server 2008 Internals .

    • 14
  2. datagod
    2011-11-19T09:03:51+08:002011-11-19T09:03:51+08:00

    Você investigou o comando MERGE no SQL 2008? Aqui está um exemplo básico:

      merge YourBigTable ybt
      using (select distinct (RecordID) from YourOtherTable) yot
         on yot.Recordid = YBT.RecordID
      when NOT matched by target
      then  insert (RecordID)
            values (yot.DeviceID) ;
    

    Este é basicamente um comando "UPSERT". Atualize se existir, insira-o se não existir. MUITO rápido, comando muito legal.

    • 9
  3. srinivas
    2015-01-18T00:58:21+08:002015-01-18T00:58:21+08:00

    Mas, eu mesmo verifiquei o Delete e Insert vs Update em uma tabela que possui 30 milhões (3 crore) de registros. Esta tabela tem uma chave composta exclusiva em cluster e 3 chaves não clusterizadas. Para Excluir e Inserir, demorou 9 minutos. Para atualização levou 55 min. Há apenas uma coluna que foi atualizada em cada linha.

    Então, peço a vocês que não adivinhem. As equações mudarão ao lidar com uma tabela grande com muitas colunas e muitos dados.

    • 6
  4. Asken
    2011-11-19T07:25:53+08:002011-11-19T07:25:53+08:00

    A atualização não é tão rápida. O truque é conseguir uma inserção rápida é desabilitar os índices enquanto os dados estão sendo inseridos.

    Considere usar isso:

    -- disable indexes
    ALTER INDEX [index_name] ON dbo.import_table DISABLE
    -- ... disable more indexes
    
    -- don't use delete if you don't care about minimal logging. truncate is faster
    TRUNCATE TABLE dbo.import_table
    
    -- just insert the new rows
    INSERT dbo.import_table
    SELECT
        *
    FROM
        dbo.source_table
    
    -- rebuild indexes
    ALTER INDEX [index_name] ON dbo.import_table REBUILD
    -- ... rebuild more indexes
    

    Ainda mais rápido é também desativar a atualização automática de estatísticas nas opções de banco de dados. Se a tabela for alterada significativamente, você deve executar:

    UPDATE STATISTICS dbo.import_table
    

    ou

    EXEC sp_updatestats
    

    como um trabalho regular (diariamente, semanalmente, dependendo do tamanho do banco de dados) para manter as estatísticas atualizadas. O que deve ser observado é atualizar as estatísticas quando a tabela estiver vazia. Isso estragará as estatísticas se você não executá-lo depois que a tabela for preenchida novamente.

    • 5

relate perguntas

  • Preciso de índices separados para cada tipo de consulta ou um índice de várias colunas funcionará?

  • Quando devo usar uma restrição exclusiva em vez de um índice exclusivo?

  • Quais são as principais causas de deadlocks e podem ser evitadas?

  • Como determinar se um Índice é necessário ou necessário

  • Downgrade do SQL Server 2008 para 2005

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Como você mostra o SQL em execução em um banco de dados Oracle?

    • 2 respostas
  • Marko Smith

    Como selecionar a primeira linha de cada grupo?

    • 6 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Posso ver Consultas Históricas executadas em um banco de dados SQL Server?

    • 6 respostas
  • Marko Smith

    Como uso currval() no PostgreSQL para obter o último id inserido?

    • 10 respostas
  • Marko Smith

    Como executar o psql no Mac OS X?

    • 11 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Marko Smith

    Passando parâmetros de array para um procedimento armazenado

    • 12 respostas
  • Martin Hope
    Manuel Leduc Restrição exclusiva de várias colunas do PostgreSQL e valores NULL 2011-12-28 01:10:21 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Stuart Blackler Quando uma chave primária deve ser declarada sem cluster? 2011-11-11 13:31:59 +0800 CST
  • Martin Hope
    pedrosanta Listar os privilégios do banco de dados usando o psql 2011-08-04 11:01:21 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST
  • Martin Hope
    BrunoLM Guid vs INT - Qual é melhor como chave primária? 2011-01-05 23:46:34 +0800 CST
  • Martin Hope
    bernd_k Quando devo usar uma restrição exclusiva em vez de um índice exclusivo? 2011-01-05 02:32:27 +0800 CST
  • Martin Hope
    Patrick Como posso otimizar um mysqldump de um banco de dados grande? 2011-01-04 13:13:48 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve