我在使用 InnoDB 连接到数据库从站时遇到间歇性问题。间歇性地,我的连接时间超过 2 秒。这些服务器托管在 Amazon 的 EC2 上。
应用服务器是在 Ubuntu 上运行的 PHP 5.2/Apache。DB slave 在 Ubuntu 9.10 上运行 Percona 的 XtraDB 5.1。它使用 EBS Raid 阵列进行数据存储。
我们已经使用跳过名称解析并绑定到地址 0.0.0.0。
这是失败的 PHP 代码的存根
$tmp = mysqli_init(); $start_time = 微时间(真); $tmp->options(MYSQLI_OPT_CONNECT_TIMEOUT, 2); $tmp->real_connect($DB_SERVERS[$server]['server'], $DB_SERVERS[$server]['username'], $DB_SERVERS[$server]['password'], $DB_SERVERS[$server]['schema'], $DB_SERVERS[$server]['port']); 如果(mysqli_connect_errno()){ $timer = microtime(true) - $start_time; mail($errors_to,'数据库连接错误',$timer); }
数据库服务器上有超过 300Mb 可用于新连接,并且服务器远未达到允许的最大值(1,200 个中的 60 个)。在 4 个核心 m1.xlarge 实例上,两台服务器上的负载均 < 2。
mysql 配置中的一些亮点
最大连接数 = 1200 线程堆栈 = 512K 线程缓存大小 = 1024 线程并发 = 16 innodb-file-per-table innodb_additional_mem_pool_size = 16M innodb_buffer_pool_size = 13G
感谢您对追踪减速源的任何帮助。
[编辑]我一直在更新网络的 sysctl 值,但它们似乎没有解决问题。我在数据库和应用服务器上都做了以下调整。
net.ipv4.tcp_window_scaling = 1 net.ipv4.tcp_sack = 0 net.ipv4.tcp_timestamps = 0 net.ipv4.tcp_fin_timeout = 20 net.ipv4.tcp_keepalive_time = 180 net.ipv4.tcp_max_syn_backlog = 1280 net.ipv4.tcp_synack_retries = 1 net.core.rmem_max = 16777216 net.core.wmem_max = 16777216 net.ipv4.tcp_rmem = 4096 87380 16777216 net.ipv4.tcp_wmem = 4096 87380 16777216
[编辑]根据 jaimieb 的建议,我添加了一些跟踪并使用时间捕获了以下数据。该服务器在一天中的这个时间处理大约 51 个查询/秒。在下面概述的 3 分钟窗口期间,连接错误出现一次(在 13:06:36)。由于有 1 次失败和大约 9,200 次成功连接,我认为这不会产生任何有意义的报告。
脚本:
日期 >> /root/database_server.txt (时间 mysql -h database_Server -D schema_name -u appuser -p apppassword -e '') > /dev/null 2>> /root/database_server.txt
结果:
=== 应用服务器 1 === 2010 年 2 月 22 日星期一 13:05:01 EST 实际0m0.008s 用户 0m0.001s 系统 0m0.000s 2010 年 2 月 22 日星期一 13:06:01 EST 实际0m0.007s 用户 0m0.002s 系统 0m0.000s 2010 年 2 月 22 日星期一 13:07:01 EST 实际0m0.008s 用户 0m0.000s 系统 0m0.001s === 应用服务器 2 === 2010 年 2 月 22 日星期一 13:05:01 EST 实际0m0.009s 用户 0m0.000s 系统 0m0.002s 2010 年 2 月 22 日星期一 13:06:01 EST 实际0m0.009s 用户 0m0.001s 系统 0m0.003s 2010 年 2 月 22 日星期一 13:07:01 EST 实际0m0.008s 用户 0m0.000s 系统 0m0.001s === 数据库服务器 === 2010 年 2 月 22 日星期一 13:05:01 EST 实际0m0.016s 用户 0m0.000s 系统 0m0.010s 2010 年 2 月 22 日星期一 13:06:01 EST 实际0m0.006s 用户 0m0.010s 系统 0m0.000s 2010 年 2 月 22 日星期一 13:07:01 EST 实际0m0.016s 用户 0m0.000s 系统 0m0.010s
[编辑]根据在 LinkedIn 问题上收到的建议,我尝试将 back_log 值设置得更高。我们一直在运行默认值 (50) 并将其增加到 150。我们还将应用程序和数据库服务器上的内核值 /proc/sys/net/core/somaxconn(最大套接字连接数)从默认值 128 提高到 256 . 我们确实看到处理器利用率有所提高,但仍然收到连接超时。