我有一个在 Mac OS X 10.4(达尔文内核版本 8.10.1)上运行的服务器系统。该服务器主要用作 Bugzilla 服务器,但还有一些其他基于 Web 的服务正在运行(Testlink、TikiWiki)。
Bugzilla 数据库中有大约 60000 个 bug,系统上大约有 300 个活跃用户。
Bugzilla 版本为 3.0,在 Perl 5.8.6、Apache 1.3.33 和 mySQL 5.0.38 上运行
有时,我们会遇到严重的问题,即 Bugzilla 抛出数据库错误:
Software error:
Can't connect to the database.
Error: Too many connections
我已经有几个可能解决这个问题的方法,但我想提出一个更普遍的问题,你将如何调试这些类型的问题?
现在我们已经设置了以下内容来监控 mySQL 数据库:
- 每 5 分钟转储一次完整的 mysql 进程列表的 cron 作业
- 在 my.cnf 中启用 log-slow-queries 以记录耗时超过 15 秒的查询
我们刚刚开始收集这些数据,看看是否能找到“连接太多”问题的原因。
是否有其他方法可以监控 mySQL 数据库并帮助诊断问题的根本原因?
在诊断这些类型的错误时,需要遵循两种不同的攻击计划:
首先,它有可能是与实际使用的软件有关的问题:本质上是在吸收连接而不是释放它们(无论是在挂线程方面,还是在合理的时间范围内)一个缓慢的查询)。
慢查询日志在诊断问题时非常有用,但是您的 15 秒值几乎没有用:如果查询需要 15 秒,那么您就完全搞砸了。作为一般的经验法则,我寻找运行时间超过一到两秒的查询。使用 EXPLAIN 关键字处理此日志中显示的所有内容,并查看导致速度变慢的原因(错误的连接、需要临时表的排序等)——如果不可能的话,查询缓存和索引的一些巧妙的魔法通常可以提供帮助更深入地修改代码/数据库设计。
另外,不要忽视mysql中的一般查询日志。虽然您不想在生产服务器上(长时间)打开它,但它可以快速告诉您,软件中的特定功能是否正在用数百个小程序敲击数据库,而不是单个查询占用时间查询。显然,解决这类问题的唯一方法是重构代码。
其次,您需要调查是否应归咎于软件的配置。您遇到多少并发连接?mysql 中设置的实际最大连接数是多少。它可能像 apache 服务说 100 个并发请求一样简单,而 mysql 只配置为接受 20 个连接 - 显然有些东西会给出。如果您可以衡量您期望处理多少流量,那么只需要一些常识(有时还需要一点谷歌来找到正确的设置)来平衡所有组件。
你有多少 apache 工人?您允许的最大 mysql 连接数是多少?由于 apache 在处理请求时为每个 httpd 工作者生成一个 cgi 进程,因此前者大于后者,因此 apache 可以打开比 mysql 允许的更多的连接。
我建议以下日志记录设置
用于转储的 cron 作业非常有用,但以防万一您没有准备好实际绘制图形,我可以推荐具有 MySQL 插件用于监控的munin
这对于确定尖峰非常有帮助。我默认以五分钟为间隔运行。
在去年使用它时,我发现了一个非常有趣的情况,否则它会完全被忽视。