Estou estudando postgresql recentemente. Agora estou aprendendo como configurar a replicação PG com slot. - Estou seguindo este exemplo - https://girders.org/postgresql/2021/11/05/setup-postgresql14-replication/
Mas todas as tentativas falharam com "Nenhum arquivo ou diretório" quando há uma nova transação gerada no lado primário. Não consigo encontrar o problema e a solução. Por favor, dê uma olhada e ajude.
Ambiente --
VM1 -- 100.70.224.70/23 -- primary side
VM2 -- 100.70.225.241/23 -- replica
PG version -- 14.10
Passos:
- Em ambos os lados, já existe uma instância PG, os PGDATA são ambos /var/lib/pgsql/data e a pasta de arquivo é /tmp/pgbak Ambos são arquivos configurados com a mesma configuração -
archive_command = 'test ! -f /tmp/pgbak/%f && cp %p /tmp/pgbak/%f'
archive_timeout = '1min'
archive_mode = 'on'
archive_cleanup_command = 'pg_archivecleanup archivelocation %r'
restore_command = 'cp /tmp/pgbak/%f %p'
- Na réplica, limpe a pasta de dados PG -- rm -rf /var/lib/pgsql/data/* e limpe também a pasta de arquivo -- rm -rf /tmp/pgbak
- No primário, edite postgresql.conf -
wal_level = replica
max_wal_senders = 10
wal_keep_size = '1GB'
wal_compression = on
- No primário, crie o usuário de replicação –
createuser -U postgres --replication repl
- No primário, edite o pg_hba.conf adicionado 2 linhas--
host all all 0.0.0.0/0 trust
host replication all 0.0.0.0/0 trust
E reinicie a instância PG no primário. Em seguida, testei na réplica com psql e funcionou bem.
- Criar slot de replicação no primário –
select * from pg_create_physical_replication_slot('db02_repl_slot');
- Na réplica, faça um basebackup -
pg_basebackup --pgdata /var/lib/pgsql/data --format=p --write-recovery-conf --checkpoint=fast --label=mffb --progress --host=100.70.224.70 -R --username=repl
- Na réplica, adicione o slot de replicação a postgresql.auto.conf --
primary_conninfo = 'user=repl passfile=''/var/lib/pgsql/.pgpass'' channel_binding=prefer host=100.70.224.70 port=5432 sslmode=prefer sslcompression=0 sslcertmode=allow sslsni=1 ssl_min_protocol_version=TLSv1.2 gssencmode=prefer krbsrvname=postgres gssdelegation=0 target_session_attrs=any load_balance_hosts=disable application_name=db02.repl'
primary_slot_name = 'db02_repl_slot'
- Inicie a instância PG na réplica e verifique o status do slot no primário, parece bom.
eisendb=# select slot_name, slot_type, active, wal_status from pg_replication_slots;
slot_name | slot_type | active | wal_status
----------------+-----------+--------+------------
db02_repl_slot | physical | t | reserved
- Em seguida, testei a modificação de dados no primário, não encontrei nenhum dado transferido para a réplica e, no arquivo de log de erros na réplica, encontrei este erro -
2024-01-01 12:30:07.066 UTC [4737]CONTEXT: WAL redo at D5/75000060 for Standby/RUNNING_XACTS: nextXid 10361 latestCompletedXid 10360 oldestRunningXid 10361
2024-01-01 12:30:07.066 UTC [4737]DEBUG: executing restore command "cp /tmp/pgbak/00000001000000D500000076 pg_wal/RECOVERYXLOG"
2024-01-01 12:30:07.068 UTC [4741]DEBUG: checkpointer updated shared memory configuration values
cp: cannot stat '/tmp/pgbak/00000001000000D500000076': No such file or directory
2024-01-01 12:30:07.069 UTC [4737]DEBUG: could not restore file "00000001000000D500000076" from archive: child process exited with exit code 1
2024-01-01 12:30:07.069 UTC [4737]DEBUG: prune KnownAssignedXids to 10361
And this is the log records filtered the debug messages --
2024-01-01 13:09:12.622 UTC [8367]LOG: database system was interrupted; last known up at 2024-01-01 13:05:59 UTC
cp: cannot stat '/tmp/pgbak/00000002.history': No such file or directory
2024-01-01 13:09:12.634 UTC [8367]LOG: entering standby mode
cp: cannot stat '/tmp/pgbak/00000001000000D500000082': No such file or directory
2024-01-01 13:09:12.639 UTC [8367]LOG: redo starts at D5/82000028
2024-01-01 13:09:12.640 UTC [8367]LOG: consistent recovery state reached at D5/82000138
2024-01-01 13:09:12.640 UTC [8362]LOG: database system is ready to accept read-only connections
cp: cannot stat '/tmp/pgbak/00000001000000D500000083': No such file or directory
2024-01-01 13:09:12.649 UTC [8374]LOG: started streaming WAL from primary at D5/83000000 on timeline 1
2024-01-01 13:10:28.316 UTC [8367]LOG: recovery stopping before commit of transaction 10363, time 2024-01-01 13:10:28.315075+00
2024-01-01 13:10:28.316 UTC [8367]LOG: pausing at the end of recovery
2024-01-01 13:10:28.316 UTC [8367]HINT: Execute pg_wal_replay_resume() to promote.
Parece que a réplica está procurando algum wal arquivado na pasta de arquivo, mas não foi encontrado. Enquanto isso, verifiquei o /tmp/pgbak na réplica e descobri que também está vazio... Não estou familiarizado com os detalhes da replicação do PG, então estou pensando se há algum erro na minha configuração para que o wal arquivado no primário possa não pode ser replicado em réplica? Se sim, por favor, corrija-me. Desde já, obrigado.