Posso ativar o PITR depois que o banco de dados foi usado

Question

Lucas Kauffman

Asked: 2013-04-02 00:04:52 +0800 CST2013-04-02 00:04:52 +0800 CST 2013-04-02 00:04:52 +0800 CST

Mais eficiente para evitar duplicatas

772

Estou construindo um aplicativo que buscará mensagens com JSON de vez em quando e as armazenará em um banco de dados postgres. Agora, quero evitar duplicatas, então calculo o sha-512 da mensagem e o defino como chave primária. Como quero evitar duplicatas, posso fazer duas coisas:

Buscar todos os hashes do banco de dados e ver ao inserir novas mensagens se o hash já existe (verificando no código)
Use um insert ignore (no postgres provavelmente uma atualização, já que o postgres não suporta insert ignore) e deixe o banco de dados lidar com essas exceções

Considerando que provavelmente estarei inserindo algumas mensagens por vez, gostaria de saber se o método dois procurará a chave primária e verificará se existe para cada inserção, em vez de apenas armazenar uma lista na memória com o método 1. O que seria mais eficiente?

1 respostas

Voted

Craig Ringer · Answer 1 · 2013-04-02T00:16:56+08:00

PostgreSQL não tem, INSERT ... IGNOREentão não é uma opção. Você pode usar operações do tipo upsert (procure por "postgresql upsert), mas elas certamente têm um custo de desempenho. Inserir e ignorar o erro resultante na chave duplicada é possível, mas tende a resultar em logs bastante spam.

Pessoalmente, eu faria o que é efetivamente fazer um upsert em massa, onde faria algo assim:

CREATE TEMPORARY TABLE staging_table(...)
COPY TO staging_table(...) FROM ...(ou faça inserções em massa)
LOCK TABLE real_table IN EXCLUSIVE MODE
INSERT INTO real_table(...) SELECT col1,col2,col3,... FROM staging_table WHERE NOT EXISTS (SELECT 1 FROM real_table WHERE real_table.primarykey = staging_table.primarykey)
COMMIT

Você pode fazer um UPDATEantes INSERT, se quiser, atualizando os registros existentes com novos valores.

O LOCK TABLEé necessário para evitar que as atualizações simultâneas falhem com erros. Você ainda pode SELECTda mesa durante a atualização.

Se você tem EXPLAINo plano para o seu INSERT, deve ver que ele foi transformado em um JOINquando você está inserindo um número maior de registros.

Mais eficiente para evitar duplicatas

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Conceder acesso a todas as tabelas para um usuário

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

Mais eficiente para evitar duplicatas

1 respostas

relate perguntas