在我们的数据中心停电后,从属 MySQL 数据库正在苦苦挣扎。
这是其中一位奴隶的日志:
100118 10:05:56 [Note] Slave I/O thread: connected to master 'repl@db1:3306', replication started in log 'bin-log.004712' at position 724207814
100118 10:05:56 [ERROR] Error reading packet from server: Client requested master to start replication from impossible position ( server_errno=1236)
100118 10:05:56 [ERROR] Got fatal error 1236: 'Client requested master to start replication from impossible position' from master when reading data from binary log
100118 10:05:56 [Note] Slave I/O thread exiting, read up to log 'bin-log.004712', position 724207814
控制台显示了更多细节:
mysql> show slave status \G;
*************************** 1. row ***************************
Slave_IO_State:
Master_Host: db1
Master_User: repl
Master_Port: 3306
Connect_Retry: 10
Master_Log_File: bin-log.004712
Read_Master_Log_Pos: 724207814
Relay_Log_File: mysqld-relay-bin.000105
Relay_Log_Pos: 98
Relay_Master_Log_File: bin-log.004712
Slave_IO_Running: No
Slave_SQL_Running: Yes
Replicate_Do_DB: mmplive1,mmpjcr,fui
Replicate_Ignore_DB:
Replicate_Do_Table:
Replicate_Ignore_Table:
Replicate_Wild_Do_Table:
Replicate_Wild_Ignore_Table:
Last_Errno: 0
Last_Error:
Skip_Counter: 0
Exec_Master_Log_Pos: 724207814
Relay_Log_Space: 98
Until_Condition: None
Until_Log_File:
Until_Log_Pos: 0
Master_SSL_Allowed: No
Master_SSL_CA_File:
Master_SSL_CA_Path:
Master_SSL_Cert:
Master_SSL_Cipher:
Master_SSL_Key:
Seconds_Behind_Master: NULL
1 row in set (0.00 sec)
ERROR:
No query specified
查看 master 上的 bin 日志,我们有:
-rw-rw---- 1 mysql mysql 724200412 Jan 18 09:22 bin-log.004712
-rw-rw---- 1 mysql mysql 1904 Jan 18 09:27 bin-log.index
-rw-rw---- 1 mysql mysql 5046830 Jan 18 11:22 slow-log
-rw-rw---- 1 mysql mysql 198249613 Jan 18 11:24 bin-log.004713
- Slave 状态显示 Exec_Master_Log_Pos 和 Read_Master_Log_Pos 都是 724207814,对于当时的二进制日志 bin-log.004712。据我了解,这个值是二进制日志文件中的字节位置。
- 该 bin-log.004712 文件只有 724200412 字节,因此从站认为他们完成的工作比实际保存在文件中的工作多 7402 字节(位于 ext3 fs、RAID-10、RHEL5 上)。因此有关不可能的日志位置等的错误消息。
修复奴隶的最佳方法是什么?
我正在考虑的选项:
- 将每个从站设置为指向下一个 bin-log 文件 (bin-log.004713) 中的位置 0 并让它们离开,但我不确定这有多安全,或者可能会丢失多少数据。
- 我是否需要进行完整备份和恢复(由于 InnoDB 表上的表锁定而假定相关的停机时间)?如果可能的话,我想避免这种情况。
更新:
我错过了另一个选择:将每个从属执行位置向后一点,以便它尝试复制它已经从 bin-log.004712 处理的命令。