我的 Ubuntu Server 11.10 版在几天前的半夜无故宕机了。现在我想知道问题出在哪里。
这是系统日志的某些部分,我一个字也听不懂。谁能帮我指出问题?
服务器在 23:17:01 和 07:41:43 之间停机,直到我们重新启动它的硬件。
Jul 15 22:55:02 my-webserver CRON[4879]: (CRON) info (No MTA installed, discarding output)
Jul 15 23:00:01 my-webserver CRON[5576]: (munin) CMD (/usr/bin/munin-cron)
Jul 15 23:00:01 my-webserver CRON[5578]: (root) CMD (if [ -x /etc/munin/plugins/apt_all ]; then /etc/munin/plugins/apt_all update 7200 12 >/dev/null; elif [ -x /etc/munin/plugins/apt ]; then /etc/munin/plugins/apt update 7200 12 >/dev/null; fi)
Jul 15 23:00:01 my-webserver CRON[5577]: (munin) CMD (if [ -x /usr/bin/munin-cron ]; then /usr/bin/munin-cron; fi)
Jul 15 23:00:02 my-webserver CRON[5575]: (CRON) error (grandchild #5576 failed with exit status 1)
Jul 15 23:00:02 my-webserver CRON[5575]: (CRON) info (No MTA installed, discarding output)
Jul 15 23:05:01 my-webserver CRON[6229]: (munin) CMD (if [ -x /usr/bin/munin-cron ]; then /usr/bin/munin-cron; fi)
Jul 15 23:05:01 my-webserver CRON[6230]: (munin) CMD (/usr/bin/munin-cron)
Jul 15 23:05:01 my-webserver CRON[6231]: (root) CMD (if [ -x /etc/munin/plugins/apt_all ]; then /etc/munin/plugins/apt_all update 7200 12 >/dev/null; elif [ -x /etc/munin/plugins/apt ]; then /etc/munin/plugins/apt update 7200 12 >/dev/null; fi)
Jul 15 23:05:01 my-webserver CRON[6226]: (CRON) error (grandchild #6229 failed with exit status 1)
Jul 15 23:05:01 my-webserver CRON[6226]: (CRON) info (No MTA installed, discarding output)
Jul 15 23:09:01 my-webserver CRON[6838]: (root) CMD ( [ -x /usr/lib/php5/maxlifetime ] && [ -d /var/lib/php5 ] && find /var/lib/php5/ -depth -mindepth 1 -maxdepth 1 -type f -cmin +$(/usr/lib/php5/maxlifetime) ! -execdir fuser -s {} 2>/dev/null \; -delete)
Jul 15 23:10:01 my-webserver CRON[8404]: (munin) CMD (if [ -x /usr/bin/munin-cron ]; then /usr/bin/munin-cron; fi)
Jul 15 23:10:01 my-webserver CRON[8405]: (root) CMD (if [ -x /etc/munin/plugins/apt_all ]; then /etc/munin/plugins/apt_all update 7200 12 >/dev/null; elif [ -x /etc/munin/plugins/apt ]; then /etc/munin/plugins/apt update 7200 12 >/dev/null; fi)
Jul 15 23:10:01 my-webserver CRON[8407]: (munin) CMD (/usr/bin/munin-cron)
Jul 15 23:10:01 my-webserver CRON[8401]: (CRON) error (grandchild #8404 failed with exit status 1)
Jul 15 23:10:01 my-webserver CRON[8401]: (CRON) info (No MTA installed, discarding output)
Jul 15 23:15:01 my-webserver CRON[9036]: (munin) CMD (if [ -x /usr/bin/munin-cron ]; then /usr/bin/munin-cron; fi)
Jul 15 23:15:01 my-webserver CRON[9035]: (munin) CMD (/usr/bin/munin-cron)
Jul 15 23:15:01 my-webserver CRON[9041]: (root) CMD (if [ -x /etc/munin/plugins/apt_all ]; then /etc/munin/plugins/apt_all update 7200 12 >/dev/null; elif [ -x /etc/munin/plugins/apt ]; then /etc/munin/plugins/apt update 7200 12 >/dev/null; fi)
Jul 15 23:15:01 my-webserver CRON[9034]: (CRON) error (grandchild #9035 failed with exit status 1)
Jul 15 23:15:01 my-webserver CRON[9034]: (CRON) info (No MTA installed, discarding output)
Jul 15 23:17:01 my-webserver CRON[9544]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly)
Jul 16 07:41:43 my-webserver kernel: imklog 5.8.1, log source = /proc/kmsg started.
Jul 16 07:41:43 my-webserver rsyslogd: [origin software="rsyslogd" swVersion="5.8.1" x-pid="783" x-info="http://www.rsyslog.com"] start
Jul 16 07:41:43 my-webserver rsyslogd: rsyslogd's groupid changed to 103
Jul 16 07:41:43 my-webserver rsyslogd: rsyslogd's userid changed to 101
Jul 16 07:41:43 my-webserver rsyslogd-2039: Could no open output pipe '/dev/xconsole' [try http://www.rsyslog.com/e/2039 ]
Jul 16 07:41:43 my-webserver kernel: [ 0.000000] Initializing cgroup subsys cpuset
Jul 16 07:41:43 my-webserver kernel: [ 0.000000] Initializing cgroup subsys cpu
Jul 16 07:41:43 my-webserver kernel: [ 0.000000] Linux version 3.0.0-12-server (buildd@crested) (gcc version 4.6.1 (Ubuntu/Linaro 4.6.1-9ubuntu3) ) #20-Ubuntu SMP Fri Oct 7 16:36:30 UTC 2011 (Ubuntu 3.0.0-12.20-server 3.0.4)
不,但我可以告诉你你现在应该做什么。
至少,通过适当的监控和警报,您的停机时间将减少到几分钟而不是几小时。通过远程访问和绘图,您可能会获得足够的数据来弄清楚发生了什么。
我看到两种可能性:
您所在的位置在 23:17 左右停电,并在 07:41 左右恢复供电。
一个在你公司过夜的人决定拔掉电脑的插头。
该日志中没有任何内容表明它重新启动的原因。它在 7 月 15 日 23:17:01 运行,在 7 月 16 日 07:41:43 重新启动。
您需要查看资源使用日志、应用程序日志、网络日志等。