Posso ativar o PITR depois que o banco de dados foi usado

Question

JohnMerlino

Asked: 2014-03-06 10:37:53 +0800 CST2014-03-06 10:37:53 +0800 CST 2014-03-06 10:37:53 +0800 CST

Removendo registros do banco de dados periodicamente que ultrapassam a linha do tempo

772

Eu tenho uma tabela de relatórios que tem literalmente milhões, senão centenas de milhões de registros de relatórios, que datam de 2011. Acho que está diminuindo exponencialmente minhas consultas. Eu só quero manter os relatórios dos últimos 6 meses. Eu tenho uma coluna de tempo na tabela de relatórios que fornece a hora atual para que eu possa usá-la para medir relatórios com mais de 6 meses. Então, estou pensando em executar algum tipo de trabalho cron no meu servidor ubuntu no qual o servidor postgresql está instalado. Mas estou procurando alguma orientação sobre como fazer isso.

1 respostas

Voted

dezso · Answer 1 · 2014-03-06T14:29:20+08:00

Recentemente, configurei uma solução de arquivamento semelhante. Os números e o destino são um pouco diferentes (este último movendo dados antigos para uma partição de arquivo), mas a ideia é a mesma.

Primeiro, você precisará de um índice no carimbo de data/hora, para localizar rapidamente as linhas a serem excluídas. Para evitar travamentos excessivos e consequente bloqueio de outros processos, isso é feito preferencialmente com a CONCURRENTLYopção.

Em segundo lugar, você deve manter sua tabela organizada limpando-a regularmente - se você tiver uma versão relativamente recente do PostgreSQL, há chances de que o banco de dados cuide disso com autovacuum.

A DELETEdeclaração real será bastante simples. No meu caso, utilizo uma função para isso, para que possamos manter a lógica do banco de dados sob controle de versão. Isso pode parecer

CREATE OR REPLACE FUNCTION delete_function()
RETURNS void
LANGUAGE sql
AS $body$
DELETE FROM big_table
WHERE report_timestamp < now() - interval '6 months';
$body$;

Você precisará de um script (digamos, um script bash), que simplesmente chama a instrução, como

#!/bin/bash

psql {connection parameters} -c 'SELECT delete_function()'

A única coisa que resta é configurar uma tarefa cron que chama esse script nos intervalos desejados.

Ainda há uma coisa a considerar, ou seja, que a primeira exclusão seria enorme. Eu evitaria isso excluindo a grande quantidade de dados antigos em blocos de tamanho adequado, novamente para evitar o bloqueio de outros processos que desejam acessar a tabela. O tamanho desses pedaços pode ser muito diferente com base em suas circunstâncias. Observe que este é mais ou menos um processo manual, a menos que você já tenha um 'chunker' em uso (como nós).

Removendo registros do banco de dados periodicamente que ultrapassam a linha do tempo

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

Removendo registros do banco de dados periodicamente que ultrapassam a linha do tempo

1 respostas

relate perguntas