在我运行 Red Hat Linux (V6) 的生产服务器中,我经常从 bash 中获得核心转储。这种情况每天发生几次到每天几十次。
TLTR
解决方法:安装 bash-debuginfo 以从核心获取更多详细信息并找到导致崩溃的语句。
原因:在这种情况下,这是因为我的旧版本 bash lists.gnu.org/archive/html/bug-bash/2010-04/msg00038.html中未修复的错误在 2010 年 4 月针对 4.1 报告并在 4.2 中修复(2011年初发布)
详细信息
此服务器运行单个 Web 应用程序 (apache + cgi-bin) 和许多批次。webapp cgi(C 程序)经常执行系统调用。
没有那么多shell交互,所以核心转储可能是由某些服务或webapp引起的,我必须知道是什么导致了这个错误。
coredump 回溯有点干(见下文)。
如何获得有关错误的更多详细信息?我想知道什么是父进程链(完全详细)、当前变量和环境、执行的脚本和/或命令是什么...
我启用了审计系统,但是关于这个的审计线也有点枯燥。这是一个例子:
type=ANOM_ABEND msg=audit(1516626710.805:413350): auid=1313 uid=1313 gid=22107 ses=64579 pid=8655 comm="bash" sig=11
这是核心回溯:
Core was generated by `bash'.
Program terminated with signal 11, Segmentation fault.
#0 0x000000370487b8ec in free () from /lib64/libc.so.6
#0 0x000000370487b8ec in free () from /lib64/libc.so.6
#1 0x000000000044f0b0 in hash_flush ()
#2 0x0000000000458870 in assoc_dispose ()
#3 0x0000000000434f55 in dispose_variable ()
#4 0x000000000044f0a7 in hash_flush ()
#5 0x0000000000433ef3 in pop_var_context ()
#6 0x0000000000434375 in pop_context ()
#7 0x0000000000451fb1 in ?? ()
#8 0x0000000000451c84 in run_unwind_frame ()
#9 0x000000000043200f in ?? ()
#10 0x000000000042fa18 in ?? ()
#11 0x0000000000430463 in execute_command_internal ()
#12 0x000000000046b86b in parse_and_execute ()
#13 0x0000000000444a01 in command_substitute ()
#14 0x000000000044e38e in ?? ()
#15 0x0000000000448d4e in ?? ()
#16 0x000000000044a1b7 in ?? ()
#17 0x0000000000457ac8 in expand_compound_array_assignment ()
#18 0x0000000000445e79 in ?? ()
#19 0x000000000044a264 in ?? ()
#20 0x000000000042ee9f in ?? ()
#21 0x0000000000430463 in execute_command_internal ()
#22 0x000000000043110e in execute_command ()
#23 0x000000000043357e in ?? ()
#24 0x00000000004303bd in execute_command_internal ()
#25 0x0000000000430362 in execute_command_internal ()
#26 0x0000000000432169 in ?? ()
#27 0x000000000042fa18 in ?? ()
#28 0x0000000000430463 in execute_command_internal ()
#29 0x000000000043110e in execute_command ()
#30 0x000000000041d6d6 in reader_loop ()
#31 0x000000000041cebc in main ()
~
更新:系统在 VMWare 处理的虚拟机中运行。
什么版本的bash?GNU bash,版本 4.1.2(1)-release (x86_64-redhat-linux-gnu)
什么版本的 libc 和其他链接到 bash 的库?
ldd (GNU libc) 2.12
(链接到 bash 的其他库是什么?是否有命令连续获取详细信息?
- 在运行脚本或交互式 shell 或两者时会发生这种情况吗?如果是脚本,它只发生在一个脚本上还是几个或任何一个脚本上?一般而言,您的 bash 脚本在做什么?您是否从其他进程中获得了段错误?您是否在服务器上运行过内存测试?它有ECC RAM吗?
正如我的问题所述:我不知道,但它应该是由一些预定的脚本或来自交互式 webapp 内部的一些系统调用引起的。它也可以是“脚本中的脚本”,就像这种结构一样:
myVar=$($(some command here ($and here too))
但是我觉得这个问题可能不是 RAM 的物理问题,因为没有其他随机崩溃,只有这个,而且我们也有它在 2 个单独的 VM 上运行在 2 个单独的物理机器上。
更新 2:
从堆栈中我觉得问题可能与关联数组有关:
#1 0x000000000044f0b0 in hash_flush ()
#2 0x0000000000458870 in assoc_dispose ()
#3 0x0000000000434f55 in dispose_variable ()
#4 0x000000000044f0a7 in hash_flush ()
这些变量几乎存在于我们所有的自定义脚本中:有一个主脚本使用了一个包含我们系统常用变量和函数的库。
这个脚本几乎来自我们的每一个脚本。