您如何跟踪和调试 mySQL 性能问题？

Question

jabley

Asked: 2010-01-19 03:35:26 +0800 CST2010-01-19 03:35:26 +0800 CST 2010-01-19 03:35:26 +0800 CST

断电后的 MySQL 复制问题

772

在我们的数据中心停电后，从属 MySQL 数据库正在苦苦挣扎。

这是其中一位奴隶的日志：

100118 10:05:56 [Note] Slave I/O thread: connected to master 'repl@db1:3306',  replication started in log 'bin-log.004712' at position 724207814
100118 10:05:56 [ERROR] Error reading packet from server: Client requested master to start replication from impossible position ( server_errno=1236)
100118 10:05:56 [ERROR] Got fatal error 1236: 'Client requested master to start replication from impossible position' from master when reading data from binary log
100118 10:05:56 [Note] Slave I/O thread exiting, read up to log 'bin-log.004712', position 724207814

控制台显示了更多细节：

mysql> show slave status \G;
*************************** 1. row ***************************
             Slave_IO_State:
                Master_Host: db1
                Master_User: repl
                Master_Port: 3306
              Connect_Retry: 10
            Master_Log_File: bin-log.004712
        Read_Master_Log_Pos: 724207814
             Relay_Log_File: mysqld-relay-bin.000105
              Relay_Log_Pos: 98
      Relay_Master_Log_File: bin-log.004712
           Slave_IO_Running: No
          Slave_SQL_Running: Yes
            Replicate_Do_DB: mmplive1,mmpjcr,fui
        Replicate_Ignore_DB:
         Replicate_Do_Table:
     Replicate_Ignore_Table:
    Replicate_Wild_Do_Table:
Replicate_Wild_Ignore_Table:
                 Last_Errno: 0
                 Last_Error:
               Skip_Counter: 0
        Exec_Master_Log_Pos: 724207814
            Relay_Log_Space: 98
            Until_Condition: None
             Until_Log_File:
              Until_Log_Pos: 0
         Master_SSL_Allowed: No
         Master_SSL_CA_File:
         Master_SSL_CA_Path:
            Master_SSL_Cert:
          Master_SSL_Cipher:
             Master_SSL_Key:
      Seconds_Behind_Master: NULL
1 row in set (0.00 sec)

ERROR:
No query specified

查看 master 上的 bin 日志，我们有：

-rw-rw---- 1 mysql mysql  724200412 Jan 18 09:22 bin-log.004712
-rw-rw---- 1 mysql mysql       1904 Jan 18 09:27 bin-log.index
-rw-rw---- 1 mysql mysql    5046830 Jan 18 11:22 slow-log
-rw-rw---- 1 mysql mysql  198249613 Jan 18 11:24 bin-log.004713

Slave 状态显示 Exec_Master_Log_Pos 和 Read_Master_Log_Pos 都是 724207814，对于当时的二进制日志 bin-log.004712。据我了解，这个值是二进制日志文件中的字节位置。
该 bin-log.004712 文件只有 724200412 字节，因此从站认为他们完成的工作比实际保存在文件中的工作多 7402 字节（位于 ext3 fs、RAID-10、RHEL5 上）。因此有关不可能的日志位置等的错误消息。

修复奴隶的最佳方法是什么？

我正在考虑的选项：

将每个从站设置为指向下一个 bin-log 文件 (bin-log.004713) 中的位置 0 并让它们离开，但我不确定这有多安全，或者可能会丢失多少数据。
我是否需要进行完整备份和恢复（由于 InnoDB 表上的表锁定而假定相关的停机时间）？如果可能的话，我想避免这种情况。

更新：

我错过了另一个选择：将每个从属执行位置向后一点，以便它尝试复制它已经从 bin-log.004712 处理的命令。

2 个回答

Voted

jabley · Answer 1 · 2010-01-20T05:33:39+08:00

我选择了第一个选项。

这一直到从站开始尝试进行与主键冲突的插入。如前所述，slave 所做的工作比 master bin-log 所坚持的要多。我没有预料到的一个方面是，slave 包含的数据不在 master 中。即从属服务器在主服务器没有持续的断电之前坚持了一些事务。

因为就我而言，这些交易与支付无关或类似，我选择从从属服务器中删除数据（从而丢失一些已经发生但在主服务器中不存在的数据），然后让复制再次运行. 这使奴隶完全与时俱进。如果数据更重要，我们有足够的自动增量偏移量给我们一些回旋余地来手动处理数据并确保引用完整性不受影响。幸运的是，在这种情况下我们不需要这样做。

对于处于这种困境的（被动）主主配置的机器，我选择了类似的方法。被动主控，我的意思是我们有一个主动主控（serverA），它是所有写入的地方，还有一个被动主控（serverB），它允许在零停机时间的情况下进行模式更新。活动主服务器（serverA）中的数据被选为真实值，尽管我们知道这意味着我们丢失了一些被认为不重要的持久事务。

更改了从站上的日志文件和位置。

CHANGE MASTER MASTER_LOG_FILE='bin-log.004713', MASTER_LOG_POS=0; -- on serverB

重新启动被动主机（serverB）上的从属复制，直到它因违反主键约束而失败，与其他从属一样。
```
 START SLAVE; -- on serverB
```
停止从被动主机 (serverB) 到主动主机 (serverA) 的从属复制。
```
STOP SLAVE; -- on serverA
```

删除从服务器 (serverB) 上的行，这些行在 serverA 上的主服务器中不存在。

DELETE FROM SOME_TABLE WHERE ID IN (???,????); -- on serverB
SHOW MASTER STATUS\G; -- get the new master log position on serverB

移动主动主 (serverA) 从属执行位置以跳过从被动主 (serverB) 中删除的那些。
```
CHANGE MASTER TO MASTER_LOG_POS=???; --on serverA; use the value just obtained from serverB
```

在主动主服务器 (serverA) 和被动主服务器上重新启动复制。

START SLAVE; -- on both machines. serverA does nothing and serverB starts catching up.

Catherine MacInnes · Answer 2 · 2010-01-19T06:15:22+08:00

Catherine MacInnes

2010-01-19T06:15:22+08:002010-01-19T06:15:22+08:00

这取决于从属设备是主设备的精确副本的重要性。你的第一选择会在一定程度上起作用，但奴隶很可能会错过主人的信息。如果您可以忍受这种情况，因为数据是瞬态的或其他什么，那么就去做吧。如果从属设备是正确的副本很重要，那么第二个选项可能是您唯一的选择。不幸的是，MySQL 复制不会容忍任何类型的意外中断，我发现这类问题在我的复制架构中比我想要的要频繁得多。

0

断电后的 MySQL 复制问题

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

从 IP 地址解析主机名

如何按大小对 du -h 输出进行排序

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

断电后的 MySQL 复制问题

2 个回答

相关问题