AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 123244
Accepted
davetapley
davetapley
Asked: 2015-12-09 14:37:45 +0800 CST2015-12-09 14:37:45 +0800 CST 2015-12-09 14:37:45 +0800 CST

Atualize iterando a tabela em lotes mais rapidamente do que a tabela inteira no PostgreSQL

  • 772

Eu tenho uma tabela com aproximadamente um milhão de linhas.

Ele está sendo usado em produção e executei um UPDATEque cobre aproximadamente 95% dessas linhas.

Depois de cinco horas , cancelei o pedido porque estava demorando muito.


A tabela tem uma coluna de ID de incremento automático, então tentei estender a WHEREcondição da minha consulta para incluir id BETWEEN 1 AND 500.

Esta atualização foi concluída em aproximadamente dois segundos. Em seguida, iterei manualmente idem lotes de 500, por exemplo BETWEEN 500 AND 1000, depois BETWEEN 1000 AND 1500.

Nesse ritmo, serão necessários 2.000 lotes de 500 para atualizar toda a tabela.

A atualização de 2.000 lotes de 2 segundos cada leva pouco mais de uma hora .


Minhas perguntas são:

  1. Que razões existem para esta diferença?
  2. Não me importo com o isolamento da transação, então existe uma maneira de simular essa 'atualização em lotes', sem precisar fazer o script das 2000 atualizações para serem executadas separadamente.
postgresql performance
  • 1 1 respostas
  • 14080 Views

1 respostas

  • Voted
  1. Best Answer
    Chris
    2015-12-09T15:28:13+08:002015-12-09T15:28:13+08:00

    Farei o possível para responder resumidamente à sua pergunta, mas como não estou realmente ciente de seu nível de conforto com o PostgreSQL e não tenho muito tempo para entrar em uma explicação detalhada de qualquer maneira, Vou manter as respostas simples e você pode pedir esclarecimentos se quiser mais informações.

    1) Por que é mais rápido em lotes?

    Devido à estrutura do registro de gravação antecipada do PostgreSQL , à quantidade de espaço de buffer compartilhado na RAM e à tentativa de executar UPDATEtudo em uma única transação, meu palpite é que você simplesmente não tem recursos de computação suficientes para lidar com eficiência com a atualização para quase um milhão de registros em uma única transação.

    O PostgreSQL possui um sistema de controle de concorrência bem construído , o que significa essencialmente que ele deve manter as cópias antigas de suas pré UPDATE-linhas disponíveis durante sua UPDATEoperação. Isso para que, caso outro cliente tente acessar essas linhas enquanto você estiver atualizando, caso a atualização falhe, ou caso você cancele a atualização, você não perca as informações antigas.

    Se você executar um grande o suficiente UPDATE, o PostgreSQL carregará as páginas na memória e as modificará, mas eventualmente ficará sem memória para trabalhar, então ele é forçado a copiar imediatamente essas páginas temporariamente para o disco se quiser carregar outras páginas e continuar a transação.

    Em vez de poder amortizar as gravações de disco durante um período de tempo, você apenas forçou seu banco de dados a um gargalo.

    2) Script das atualizações

    Você absolutamente pode fazer o script das atualizações, criando uma função em PL/pgSQL . Há muito o que aprender sobre PL/pgSQL, incluindo muitas coisas que provavelmente não sei, mas de modo geral, você poderia fazer algo assim

    CREATE OR REPLACE FUNCTION mini_batch_update()
      RETURNS void AS
    $BODY$
    DECLARE
    
    id_val integer;
    
    BEGIN
    
      FOR id_val IN 0..2000
      LOOP
    
      **UPDATE GOES HERE**
      WHERE id > (500 * id_val) AND id <= 500 * (id_val + 1);
    
      END LOOP;
    
    
    END
    $BODY$
    LANGUAGE plpgsql;
    

    Não demorei muito para fazer esse lote funcionar da melhor forma possível; o que quero dizer é que simplesmente codifiquei vários dos valores numéricos para simplificar. No seu caso, você pode querer obter mais detalhes e incluir: 1) Algo que verifique o valor máximo de id para que você defina seus limites adequadamente e 2) mesmo que eu tenha codificado lotes de 500, você pode facilmente fazer isso um parâmetro de entrada de função.

    Desculpe, não tenho tempo para testar isso ou garantir que realmente funcione bem. Boa sorte!

    • 10

relate perguntas

  • Sequências Biológicas do UniProt no PostgreSQL

  • Como determinar se um Índice é necessário ou necessário

  • Onde posso encontrar o log lento do mysql?

  • Como posso otimizar um mysqldump de um banco de dados grande?

  • Qual é a diferença entre a replicação do PostgreSQL 9.0 e o Slony-I?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

    • 12 respostas
  • Marko Smith

    Como fazer a saída do sqlplus aparecer em uma linha?

    • 3 respostas
  • Marko Smith

    Selecione qual tem data máxima ou data mais recente

    • 3 respostas
  • Marko Smith

    Como faço para listar todos os esquemas no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Listar todas as colunas de uma tabela especificada

    • 5 respostas
  • Marko Smith

    Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

    • 4 respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Martin Hope
    Jin conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane Como faço para listar todos os esquemas no PostgreSQL? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh Por que o log de transações continua crescendo ou fica sem espaço? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland Listar todas as colunas de uma tabela especificada 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney O MySQL pode realizar consultas razoavelmente em bilhões de linhas? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx Como posso monitorar o andamento de uma importação de um arquivo .sql grande? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve