Práticas recomendadas para executar a replicação atrasada do deslocamento de tempo

Question

Gonzalo Vasquez

Asked: 2017-07-18 13:07:18 +0800 CST2017-07-18 13:07:18 +0800 CST 2017-07-18 13:07:18 +0800 CST

Análise Post Mortem: Falha na replicação do PostgreSQL

772

Temos um servidor de produção PostgreSQL 9.4.9 que estava replicando para uma instância escrava, mas hoje descobri que a instância está fora de sincronia!

As ações óbvias seriam recriar o escravo, configurar métricas e alarmes adequados para a atividade de replicação, para que possamos monitorar efetivamente o status de sincronização entre os nós mestre e escravo.

Mas, como a sincronização falhou, gostaria de primeiro diagnosticar o problema e tentar identificar a causa raiz dele, pois esta seria a segunda vez que isso acontece em cerca de 6 meses.

Pergunta : Como diagnosticar o que falhou no processo de replicação para que possa ser feito da melhor forma desta vez?

Especificações da versão:

PostgreSQL 9.4.9 on x86_64-unknown-linux-gnu, compiled by gcc (Debian 4.9.2-10) 4.9.2, 64-bit

Do nó escravo, em /var/log/postgresql/postgresql-9.4-main.logposso ver:

2017-07-18 19:43:55 UTC [12816-1] LOG:  started streaming WAL from primary at 125D/68000000 on timeline 1
2017-07-18 19:43:55 UTC [12816-2] FATAL:  could not receive data from WAL stream: ERROR:  requested WAL segment 000000010000125D00000068 has already been removed

2017-07-18 19:44:00 UTC [12817-1] LOG:  started streaming WAL from primary at 125D/68000000 on timeline 1
2017-07-18 19:44:00 UTC [12817-2] FATAL:  could not receive data from WAL stream: ERROR:  requested WAL segment 000000010000125D00000068 has already been removed

2017-07-18 19:44:05 UTC [12821-1] LOG:  started streaming WAL from primary at 125D/68000000 on timeline 1
2017-07-18 19:44:05 UTC [12821-2] FATAL:  could not receive data from WAL stream: ERROR:  requested WAL segment 000000010000125D00000068 has already been removed

2017-07-18 19:44:10 UTC [12825-1] LOG:  started streaming WAL from primary at 125D/68000000 on timeline 1
2017-07-18 19:44:10 UTC [12825-2] FATAL:  could not receive data from WAL stream: ERROR:  requested WAL segment 000000010000125D00000068 has already been removed

2017-07-18 19:44:15 UTC [12826-1] LOG:  started streaming WAL from primary at 125D/68000000 on timeline 1
2017-07-18 19:44:15 UTC [12826-2] FATAL:  could not receive data from WAL stream: ERROR:  requested WAL segment 000000010000125D00000068 has already been removed

Nova pergunta : Como posso ver para trás onde o problema real apareceu?

Mestre postgresql.conf: https://pastebin.com/NJX5ku6m

Escravo postgresql.conf: https://pastebin.com/CUZcyazC

Escravo recovery.conf:

standby_mode = on
primary_conninfo = 'host=10.1.1.65 port=5432 user=replicador password=replicador'

2 respostas

Voted

Craig Ringer · Answer 1 · 2017-07-19T16:54:13+08:00

Best Answer

Craig Ringer

2017-07-19T16:54:13+08:002017-07-19T16:54:13+08:00

Com base nisso, eu diria que você não tinha o suficiente wal_keep_segmentsno mestre, não estava usando um slot de replicação e estava hot_standby_feedbackdesligado ou a conexão caiu por tempo suficiente para o mestre remover o WAL necessário.

E você provavelmente não está usando o arquivamento WAL ( archive_commandno mestre, restore_commandna réplica) como fallback.

Assim, o mestre removeu os logs de transações do modo de espera necessário.

Você precisará recriar o modo de espera. Qualquer então:

Defina o modo de espera para usar um slot de replicação e habilite hot_standby_feedback; ou
habilitar archive_commanderestore_command

7

Arkhena · Answer 2 · 2017-07-19T04:35:04+08:00

Arkhena

2017-07-19T04:35:04+08:002017-07-19T04:35:04+08:00

Primeira coisa: veja os logs. Você encontrará avisos, mensagens de erro, fatais e de pânico.

Você pode encontrar onde seus logs estão em seu postgresql.confarquivo.

Procure a logging_collectorconfiguração, se for on, você encontrará os logs do servidor no diretório especificado na log_directoryconfiguração.

Se logging_collectorestiver definido como off, observe a log_destinationconfiguração. Se for, syslogvocê precisa examinar suas configurações de syslog para descobrir onde estão seus logs. Se for, stderrvocê pode encontrar algo sob /proc/<PID>/fd/2onde <PID>está o PID do seu servidor PostgreSQL em execução.

Você pode achar esta página de documentação útil.

2

Análise Post Mortem: Falha na replicação do PostgreSQL

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

Análise Post Mortem: Falha na replicação do PostgreSQL

2 respostas

relate perguntas