AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 334004
Accepted
Justin Lowen
Justin Lowen
Asked: 2023-12-13 06:40:43 +0800 CST2023-12-13 06:40:43 +0800 CST 2023-12-13 06:40:43 +0800 CST

PostgreSQL - atualizações de 30.000 linhas, definir coluna booleana não indexada como 'true' leva horas

  • 772

Estou executando o PostgreSQL 13, e uma única instrução UPDATE que parece trivial para ser concluída pode levar horas (pelo menos em um caso, mais de 24 horas).

A seleção das linhas com uma instrução SELECT leva menos de um segundo. A atualização das linhas é drasticamente mais lenta, com apenas 30.000 linhas afetadas.

A coluna em questão que estou tentando atualizar não está indexada. O banco de dados também está bem provisionado para a escala do banco de dados. Enquanto a consulta está ativa, posso ver 1 dos 4 vCPU em plena aceleração. As configurações de memória são ajustadas aos padrões típicos recomendados para um sistema de 32 GB de RAM.

Após a primeira execução, posso alternar a coluna booleana arquivada para frente e para trás com muito mais rapidez (5 minutos na primeira ATUALIZAÇÃO -> 15 segundos para fazer o inverso no meu caso simulado).

Existem algumas propriedades que tornam esta tabela única. O esquema do banco de dados é altamente normalizado. Esta tabela contém os nomes e uuids de muitos dos modelos de dados, portanto, há muitos relacionamentos FK. A tabela possui 16 colunas, com 10 índices e 4 restrições. O valor da coluna atualizado não faz parte de uma restrição ou índice.

Por que o desempenho desta consulta de atualização é tão ruim? Há algo que eu possa fazer para melhorar o desempenho?

Plano de consulta

postgresql
  • 2 2 respostas
  • 65 Views

2 respostas

  • Voted
  1. Best Answer
    Laurenz Albe
    2023-12-13T07:24:49+08:002023-12-13T07:24:49+08:00

    A declaração poderia ser reescrita para a forma mais simples

    UPDATE resource AS r
    SET archived = TRUE
    FROM sample_sheet AS ss
    WHERE r.resource_id = ss.sample_sheet_id
      AND r.created_timestamp < current_timestamp - INTERVAL '120 00:00:00'
      AND ss.state IN ('done', 'failed');
    

    Mas isso não ajudará no seu desempenho. Todo o tempo é gasto na atualização real. Além de um disco muito, muito lento, as possíveis causas podem ser

    • bloqueios que bloqueiam a execução da atualização

    • muitos índices excessivos na tabela (e talvez índices lentos, como índices GIN)

    • um gatilho pode ser descartado, porque deve aparecer na EXPLAIN (ANALYZE)saída

    Eu definiria track_io_timing = one tentaria novamente a consulta EXPLAIN (ANALYZE, BUFFERS, WAL)para obter informações mais detalhadas.

    • 1
  2. Justin Lowen
    2023-12-15T05:56:03+08:002023-12-15T05:56:03+08:00

    Depois de conseguir reproduzir o problema com várias consultas semelhantes, parece que certas formas da consulta UPDATE podem resultar em um nó Materialize muito caro que faz um loop para juntar as linhas e colunas da tabela atualizada, bem como a tupla ctidpara as outras tabelas referenciadas.

    https://explain.dalibo.com/plan/08729h152df894fd

    EXPLAIN (ANALYZE, COSTS, VERBOSE, BUFFERS, FORMAT JSON)
    UPDATE resource
      SET archived = true
      FROM resource r_ss
      JOIN sample_sheet ss on r_ss.resource_id = ss.sample_sheet_id
      WHERE r_ss.created_timestamp < (now() - INTERVAL '120 DAY') AND ss.state in ('done', 'failed');
    

    Uma varredura sequencial é feita nas 333 linhas em sample_sheet. Eles são unidos 1:1 com uma varredura de índice para a tabela de recursos com o alias de r_ss (as entradas de recursos para essas planilhas). O resultado unido também carrega o ctid. Este resultado (restringido por filtros e pesquisas de índice) é então materializado (55.000.000 linhas) e unido novamente ao recurso de tabela atualizado (sem alias) em um loop. A própria tabela de recursos possui 200.000 linhas neste exemplo. Neste caso, a operação atualizou 277 linhas em 2 minutos.

    Esta forma de consulta não resulta em operações caras de materialização: https://explain.dalibo.com/plan/bf5377ed6d4dca95

    EXPLAIN (ANALYZE, COSTS, VERBOSE, BUFFERS, FORMAT JSON)
    UPDATE resource AS r_ss
      SET archived = true
      FROM sample_sheet ss
      WHERE 
      r_ss.resource_id = ss.sample_sheet_id
      AND r_ss.created_timestamp < (now() - INTERVAL '120 DAY') 
      AND ss.state in ('done', 'failed');
    

    Verificado que não houve bloqueio de bloqueios, que o vácuo teve impacto mínimo e que as atualizações HOT tiveram impacto mínimo. Vale a pena notar que a atualização de todas as 200.000 linhas sem qualquer cláusula WHERE levou cerca de 8 segundos com fator de preenchimento de 100% (apenas cerca de 10% das atualizações de tupla foram atualizações HOT). Com fator de preenchimento de 50% para a tabela, a atualização completa levou cerca de 2 segundos, com todas as atualizações sendo QUENTES. O nó materializado resultante da junção desnecessária da resourcetabela atualizada e do produto resource r_ss x sample_sheet ssparecia ser a causa raiz.

    • 1

relate perguntas

  • Posso ativar o PITR depois que o banco de dados foi usado

  • Práticas recomendadas para executar a replicação atrasada do deslocamento de tempo

  • Os procedimentos armazenados impedem a injeção de SQL?

  • Sequências Biológicas do UniProt no PostgreSQL

  • Qual é a diferença entre a replicação do PostgreSQL 9.0 e o Slony-I?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

    • 12 respostas
  • Marko Smith

    Como fazer a saída do sqlplus aparecer em uma linha?

    • 3 respostas
  • Marko Smith

    Selecione qual tem data máxima ou data mais recente

    • 3 respostas
  • Marko Smith

    Como faço para listar todos os esquemas no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Listar todas as colunas de uma tabela especificada

    • 5 respostas
  • Marko Smith

    Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

    • 4 respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Martin Hope
    Jin conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane Como faço para listar todos os esquemas no PostgreSQL? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh Por que o log de transações continua crescendo ou fica sem espaço? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland Listar todas as colunas de uma tabela especificada 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney O MySQL pode realizar consultas razoavelmente em bilhões de linhas? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx Como posso monitorar o andamento de uma importação de um arquivo .sql grande? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve