AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / unix / 问题 / 419118
Accepted
Guillaume
Guillaume
Asked: 2018-01-24 07:39:58 +0800 CST2018-01-24 07:39:58 +0800 CST 2018-01-24 07:39:58 +0800 CST

如何找到为什么 bash 以信号 11 退出,分段错误

  • 772

在我运行 Red Hat Linux (V6) 的生产服务器中,我经常从 bash 中获得核心转储。这种情况每天发生几次到每天几十次。

TLTR

解决方法:安装 bash-debuginfo 以从核心获取更多详细信息并找到导致崩溃的语句。

原因:在这种情况下,这是因为我的旧版本 bash lists.gnu.org/archive/html/bug-bash/2010-04/msg00038.html中未修复的错误在 2010 年 4 月针对 4.1 报告并在 4.2 中修复(2011年初发布)

详细信息
此服务器运行单个 Web 应用程序 (apache + cgi-bin) 和许多批次。webapp cgi(C 程序)经常执行系统调用。

没有那么多shell交互,所以核心转储可能是由某些服务或webapp引起的,我必须知道是什么导致了这个错误。

coredump 回溯有点干(见下文)。

如何获得有关错误的更多详细信息?我想知道什么是父进程链(完全详细)、当前变量和环境、执行的脚本和/或命令是什么...

我启用了审计系统,但是关于这个的审计线也有点枯燥。这是一个例子:

type=ANOM_ABEND msg=audit(1516626710.805:413350): auid=1313 uid=1313 gid=22107 ses=64579 pid=8655 comm="bash" sig=11

这是核心回溯:

    Core was generated by `bash'.
Program terminated with signal 11, Segmentation fault.
#0  0x000000370487b8ec in free () from /lib64/libc.so.6
#0  0x000000370487b8ec in free () from /lib64/libc.so.6
#1  0x000000000044f0b0 in hash_flush ()
#2  0x0000000000458870 in assoc_dispose ()
#3  0x0000000000434f55 in dispose_variable ()
#4  0x000000000044f0a7 in hash_flush ()
#5  0x0000000000433ef3 in pop_var_context ()
#6  0x0000000000434375 in pop_context ()
#7  0x0000000000451fb1 in ?? ()
#8  0x0000000000451c84 in run_unwind_frame ()
#9  0x000000000043200f in ?? ()
#10 0x000000000042fa18 in ?? ()
#11 0x0000000000430463 in execute_command_internal ()
#12 0x000000000046b86b in parse_and_execute ()
#13 0x0000000000444a01 in command_substitute ()
#14 0x000000000044e38e in ?? ()
#15 0x0000000000448d4e in ?? ()
#16 0x000000000044a1b7 in ?? ()
#17 0x0000000000457ac8 in expand_compound_array_assignment ()
#18 0x0000000000445e79 in ?? ()
#19 0x000000000044a264 in ?? ()
#20 0x000000000042ee9f in ?? ()
#21 0x0000000000430463 in execute_command_internal ()
#22 0x000000000043110e in execute_command ()
#23 0x000000000043357e in ?? ()
#24 0x00000000004303bd in execute_command_internal ()
#25 0x0000000000430362 in execute_command_internal ()
#26 0x0000000000432169 in ?? ()
#27 0x000000000042fa18 in ?? ()
#28 0x0000000000430463 in execute_command_internal ()
#29 0x000000000043110e in execute_command ()
#30 0x000000000041d6d6 in reader_loop ()
#31 0x000000000041cebc in main ()
~

更新:系统在 VMWare 处理的虚拟机中运行。

  • 什么版本的bash?GNU bash,版本 4.1.2(1)-release (x86_64-redhat-linux-gnu)

  • 什么版本的 libc 和其他链接到 bash 的库?

ldd (GNU libc) 2.12

(链接到 bash 的其他库是什么?是否有命令连续获取详细信息?

  • 在运行脚本或交互式 shell 或两者时会发生这种情况吗?如果是脚本,它只发生在一个脚本上还是几个或任何一个脚本上?一般而言,您的 bash 脚本在做什么?您是否从其他进程中获得了段错误?您是否在服务器上运行过内存测试?它有ECC RAM吗?

正如我的问题所述:我不知道,但它应该是由一些预定的脚本或来自交互式 webapp 内部的一些系统调用引起的。它也可以是“脚本中的脚本”,就像这种结构一样:

myVar=$($(some command here ($and here too))

但是我觉得这个问题可能不是 RAM 的物理问题,因为没有其他随机崩溃,只有这个,而且我们也有它在 2 个单独的 VM 上运行在 2 个单独的物理机器上。

更新 2:

从堆栈中我觉得问题可能与关联数组有关:

#1  0x000000000044f0b0 in hash_flush ()
#2  0x0000000000458870 in assoc_dispose ()
#3  0x0000000000434f55 in dispose_variable ()
#4  0x000000000044f0a7 in hash_flush ()

这些变量几乎存在于我们所有的自定义脚本中:有一个主脚本使用了一个包含我们系统常用变量和函数的库。

这个脚本几乎来自我们的每一个脚本。

bash core-dump
  • 2 2 个回答
  • 4656 Views

2 个回答

  • Voted
  1. Best Answer
    Guillaume
    2018-01-25T07:12:23+08:002018-01-25T07:12:23+08:00

    我按照 gdb 的建议安装了 debuginfo 工具,然后我得到了导致崩溃的表达式:

    #20 0x0000000000457ac8 in expand_compound_array_assignment (
        var=<value optimized out>, 
        value=0x150c660 "$(logPath \"$@\")", flags=<value optimized out>
    )
    

    所以现在我知道问题出在哪里了。在我的例子中,它位于 .bashrc 中的一个函数中,根本原因是 Bash 中映射变量的重新定义错误:

    declare -A myMap
    local myMap=""
    
    ...
    for key in "${!myMap[@]}"; do 
      echo ${myMap[$key]}
    done    
    

    此函数在子 shell 中调用,导致“分段错误”错误输出被隐藏。

    • 2
  2. jas-
    2018-01-24T10:04:19+08:002018-01-24T10:04:19+08:00

    这是一个典型的double free问题。hash_flush()在内存段上调用一次,0x000000000044f0a7然后在0x000000000044f0b0.

    您应该搜索所有调用hash_flush()并检查它们之前的关联数组值。

    如果您在 shebang 行上启用日志记录和使用-x参数的组合,您将看到问题。

    虽然我不是 100% 确定 bash 并且它是从堆中清理的内存(像 Perl、Python、PHP 和 Java 中的 GC 或来自 C/C++ 的 free()、dealloc() 等)。

    抱歉,这不是一个明确的解决方案,但我必须检查您的代码等。

    • 1

相关问题

  • 通过命令的标准输出以编程方式导出环境变量[重复]

  • 从文本文件传递变量的奇怪问题

  • 虽然行读取保持转义空间?

  • `tee` 和 `bash` 进程替换顺序

  • 运行一个非常慢的脚本直到它成功

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    如何将 GPG 私钥和公钥导出到文件

    • 4 个回答
  • Marko Smith

    ssh 无法协商:“找不到匹配的密码”,正在拒绝 cbc

    • 4 个回答
  • Marko Smith

    我们如何运行存储在变量中的命令?

    • 5 个回答
  • Marko Smith

    如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域?

    • 3 个回答
  • Marko Smith

    如何卸载内核模块“nvidia-drm”?

    • 13 个回答
  • Marko Smith

    dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

    • 2 个回答
  • Marko Smith

    如何从 systemctl 服务日志中查看最新的 x 行

    • 5 个回答
  • Marko Smith

    Nano - 跳转到文件末尾

    • 8 个回答
  • Marko Smith

    grub 错误:你需要先加载内核

    • 4 个回答
  • Marko Smith

    如何下载软件包而不是使用 apt-get 命令安装它?

    • 7 个回答
  • Martin Hope
    rocky 如何将 GPG 私钥和公钥导出到文件 2018-11-16 05:36:15 +0800 CST
  • Martin Hope
    Wong Jia Hau ssh-add 返回:“连接代理时出错:没有这样的文件或目录” 2018-08-24 23:28:13 +0800 CST
  • Martin Hope
    Evan Carroll systemctl 状态显示:“状态:降级” 2018-06-03 18:48:17 +0800 CST
  • Martin Hope
    Tim 我们如何运行存储在变量中的命令? 2018-05-21 04:46:29 +0800 CST
  • Martin Hope
    Ankur S 为什么 /dev/null 是一个文件?为什么它的功能不作为一个简单的程序来实现? 2018-04-17 07:28:04 +0800 CST
  • Martin Hope
    user3191334 如何从 systemctl 服务日志中查看最新的 x 行 2018-02-07 00:14:16 +0800 CST
  • Martin Hope
    Marko Pacak Nano - 跳转到文件末尾 2018-02-01 01:53:03 +0800 CST
  • Martin Hope
    Kidburla 为什么真假这么大? 2018-01-26 12:14:47 +0800 CST
  • Martin Hope
    Christos Baziotis 在一个巨大的(70GB)、一行、文本文件中替换字符串 2017-12-30 06:58:33 +0800 CST
  • Martin Hope
    Bagas Sanjaya 为什么 Linux 使用 LF 作为换行符? 2017-12-20 05:48:21 +0800 CST

热门标签

linux bash debian shell-script text-processing ubuntu centos shell awk ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve