关于【core-dump】的问题- 第1页

Phylliade

Asked: 2019-09-26 13:00:04 +0800 CST

如何从 coredump 重建堆栈跟踪？

1

coredumpctl创建 coredump 后，该实用程序会显示程序的堆栈跟踪。

例如，在 Firefox 核心转储上：

Stack trace of thread 14469:
#0  0x00007f0ac652d3bd pthread_cond_wait@@GLIBC_2.3.2 (libpthread.so.0)
#1  0x0000560f2ab95488 _ZN7mozilla6detail21ConditionVariableImpl4waitERNS0_9MutexImplE (firefox)
#2  0x0000560f2ab95646 _ZN7mozilla6detail21ConditionVariableImpl8wait_forERNS0_9MutexImplERKNS_16BaseTimeDurationINS_27TimeDurati>
#3  0x00007f0aba9799f9 n/a (libxul.so)
#4  0x00007f0aba96eb9a n/a (libxul.so)
#5  0x00007f0ac652708c start_thread (libpthread.so.0)
#6  0x00007f0ac5abce7f __clone (libc.so.6)

考虑到这是 C 代码，因此它是编译的，符号并没有直接嵌入到二进制文件中：那么这怎么可能呢？
而且，readelf 在实践中是如何做到的？

（我的猜测，这与嵌入在 ELF 文件中的符号表有关）

Taekahn

Asked: 2019-08-06 08:36:39 +0800 CST

按信号过滤数百个核心转储

0

如果我在一个目录中有数百个核心转储，并且想将其过滤到仅由特定信号生成的核心转储，而不必一次手动打开 GDB 中的每个核心转储，有没有办法做到这一点？

GDB 确实允许您通过 -ex 标志传递命令，但 GDB 的输出不会进入控制台，所以我不能只在所有文件上运行它并 grep 结果。

Tcll

Asked: 2019-05-14 03:01:04 +0800 CST

如何在 Void Linux 中启用核心转储？

0

我看到的一切都告诉我通过配置核心转储ulimit，但 Void 没有这个命令（至少不是开箱即用的）。我似乎找不到任何相关结果来帮助我启用它们。

我使用 Void 是因为它比使用systemd.

我需要启用核心转储以帮助他们获得正确的调试信息。

有谁知道如何做到这一点？

dangeroushobo

Asked: 2019-01-04 08:59:03 +0800 CST

在 Linux 2.6.35 上启用核心转储

1

我在自定义嵌入式设备 (ARMv7) 上运行内核 2.6.35。我正在尝试获取核心转储，但似乎核心转储已被禁用。

我的内核配置可以在这里找到： https ://pastebin.com/XXZ8YyaA

我的测试应用程序如下：

int main() {
    return 1/0;
}

我期待以下内容：

Floating point exception (core dumped)

但是得到这个：

Floating point exception

意味着核心转储被禁用。如何为我的平台启用它们？看起来直到内核版本 3.7CONFIG_COREDUMP 才添加了在内核中切换功能的选项。它不是在以前的内核中总是启用的吗？

# ulimit -a
-t: cpu time (seconds)              unlimited
-f: file size (blocks)              unlimited
-d: data seg size (kbytes)          unlimited
-s: stack size (kbytes)             8192
-c: core file size (blocks)         unlimited
-m: resident set size (kbytes)      unlimited
-u: processes                       1710
-n: file descriptors                1024
-l: locked-in-memory size (kbytes)  64
-v: address space (kbytes)          unlimited
-x: file locks                      unlimited
-i: pending signals                 1710
-q: bytes in POSIX msg queues       819200
-e: max nice                        0
-r: max rt priority                 0
-N 15:                              unlimited
# ./crash
Floating point exception

Mohammed

Asked: 2018-12-21 11:32:09 +0800 CST

如何转换 Coredump .gz 文件以便我可以阅读它

0

我有.gz格式的 coredump 文件（我不知道），我想转换它，以便我可以阅读它。

有没有办法可以coredumpctl用来读取.gz核心转储文件？

Mohammed

Asked: 2018-12-15 11:47:04 +0800 CST

配置 Linux 核心转储程序以永久存储核心

1

我正在使用RHEL操作系统，它具有systemd-coredump处理节点内核心的默认程序。

在这里我看到该文件说，如果Storage=none那么转储将不会永久存储在节点上。所以，我更新了我/etc/systemd/coredump.conf的：

cat /etc/systemd/coredump.conf
Storage=external
MaxUse=20%

因此，这应该仅在达到时限制转储20%。但是我看到磁盘空间仍然存在，10%即使旧的核心转储被删除。

$df -h
Filesystem                Size  Used Avail Use% Mounted on
/dev/vda1                  80G  7.7G   73G  10% /
devtmpfs                  3.8G     0  3.8G   0% /dev
tmpfs                     3.9G     0  3.9G   0% /dev/shm
tmpfs                     3.9G  1.6M  3.9G   1% /run
tmpfs                     3.9G     0  3.9G   0% /sys/fs/cgroup
/dev/mapper/vg02-volumes   60G   33M   60G   1% /var/lib/origin/openshift.local.volumes
/dev/mapper/vg00-docker    60G  330M   60G   1% /var/lib/docker
tmpfs                     783M     0  783M   0% /run/user/1000

我的核心转储目录：

$df /var/lib/systemd/coredump/
Filesystem     1K-blocks    Used Available Use% Mounted on
/dev/vda1       83874796 7978616  75896180  10% /

我对文档的理解是错误的还是在这里遗漏了什么。

Paul Knopf

Asked: 2018-07-31 05:04:28 +0800 CST

systemd：无法在只读文件系统上创建 coredump

2

我正在使用嵌入式 Linux 设置。我挂载了一个带有可写覆盖（使用overlayfs）的 squashfs，然后 chroot 进入其中，将控制权转移到 systemd。

我在 systemd 中有补丁可以将核心转储发送到/var/log，而不是/var/lib/systemd/coredump.

当请求核心转储时，systemd-coredump会调用它，但会收到此错误。

Jul 30 08:54:14 evo4k-e6872f kernel: ClearApp[803]: segfault at 0 ip 000000000042bcb0 sp 00007ffcd4915f18 error 6 in ClearApp[400000+868000]
Jul 30 08:54:14 evo4k-e6872f kernel[359]: ClearApp[803]: segfault at 0 ip 000000000042bcb0 sp 00007ffcd4915f18 error 6 in ClearApp[400000+868000]
Jul 30 08:54:14 evo4k-e6872f systemd[1]: Started Process Core Dump (PID 804/UID 0).
Jul 30 08:54:14 evo4k-e6872f systemd-coredump[805]: Failed to create temporary file for coredump /var/log/coredump/core.ClearApp.0.54a13c5624ad4ed6b3>
Jul 30 08:54:14 evo4k-e6872f systemd-coredump[805]: Process 803 (ClearApp) of user 0 dumped core.
Jul 30 08:54:14 evo4k-e6872f systemd[1]: clearapp.service: Main process exited, code=dumped, status=11/SEGV
Jul 30 08:54:14 evo4k-e6872f systemd[1]: clearapp.service: Failed with result 'core-dump'.
Jul 30 08:54:15 evo4k-e6872f systemd[1]: clearapp.service: Service hold-off time over, scheduling restart.
Jul 30 08:54:15 evo4k-e6872f systemd[1]: clearapp.service: Scheduled restart job, restart counter is at 5.
Jul 30 08:54:15 evo4k-e6872f systemd[1]: Stopped MedX ClearApp.
Jul 30 08:54:15 evo4k-e6872f systemd[1]: clearapp.service: Start request repeated too quickly.
Jul 30 08:54:15 evo4k-e6872f systemd[1]: clearapp.service: Failed with result 'core-dump'.
Jul 30 08:54:15 evo4k-e6872f systemd[1]: Failed to start MedX ClearApp.

我/proc/sys/kernel/core_pattern的是|/lib/systemd/systemd-coredump %P %u %g %s %t %c %e。如果我设置core_pattern为/tmp/cores/core.%e.%p.%h.%t，它的工作原理。所以，它是 systemd 的定义。

我正在使用 systemd 版本 237。这以前使用 systemd 版本 234。

我的文件系统正确/干净。无论如何它都没有损坏（fsck回来干净）。

如何让 systemd 生成没有错误的核心转储？

编辑#1

我重新编译systemd-coredump以登录到不同的目录，甚至是安装的拇指驱动器，它给了我同样的错误。

Jul 30 10:43:39 evo4k-e6872f systemd-coredump[1910]: Failed to create temporary file for coredump /run/media/Pauls/core.ClearApp.0.dd6557bb31264bf2b3773b534fd6e2b1.1908.1532961819000000: Read-only file system

我开始认为内核或 systemd 正在做的不仅仅是创建一个临时文件。

编辑#2

我运行了 systemd 从用户空间执行的确切open调用，它成功了。内核调用核心转储程序的上下文有什么问题吗？

我将此行添加到 systemd。

    fd = open(tmp, O_CREAT|O_EXCL|O_NOFOLLOW|O_NOCTTY|flags, 0640);
    if (fd < 0) {
            log_error("Couldn't open: %d: %s", fd, tmp);
            return -errno;
    }

我得到这个输出。

Couldn't open: -1: /run/media/Pauls/.#core.ClearApp.0.7833dca6d3354c0e959b366df731bf9f.879.15329633730000000f174d1155a09d96

Omar Elrefaei

Asked: 2018-04-23 08:48:42 +0800 CST

是否可以将程序的内存转储到文件并再次恢复？

1

我想将某个程序使用的 RAM 复制到文件中。然后稍后再次恢复该状态。

类似于 ctrl+z & fg 的效果，但我也想从该程序中释放 RAM。

Guillaume

Asked: 2018-01-24 07:39:58 +0800 CST

如何找到为什么 bash 以信号 11 退出，分段错误

4

在我运行 Red Hat Linux (V6) 的生产服务器中，我经常从 bash 中获得核心转储。这种情况每天发生几次到每天几十次。

TLTR

解决方法：安装 bash-debuginfo 以从核心获取更多详细信息并找到导致崩溃的语句。

原因：在这种情况下，这是因为我的旧版本 bash lists.gnu.org/archive/html/bug-bash/2010-04/msg00038.html中未修复的错误在 2010 年 4 月针对 4.1 报告并在 4.2 中修复（2011年初发布）

详细信息
此服务器运行单个 Web 应用程序 (apache + cgi-bin) 和许多批次。webapp cgi（C 程序）经常执行系统调用。

没有那么多shell交互，所以核心转储可能是由某些服务或webapp引起的，我必须知道是什么导致了这个错误。

coredump 回溯有点干（见下文）。

如何获得有关错误的更多详细信息？我想知道什么是父进程链（完全详细）、当前变量和环境、执行的脚本和/或命令是什么...

我启用了审计系统，但是关于这个的审计线也有点枯燥。这是一个例子：

type=ANOM_ABEND msg=audit(1516626710.805:413350): auid=1313 uid=1313 gid=22107 ses=64579 pid=8655 comm="bash" sig=11

这是核心回溯：

    Core was generated by `bash'.
Program terminated with signal 11, Segmentation fault.
#0  0x000000370487b8ec in free () from /lib64/libc.so.6
#0  0x000000370487b8ec in free () from /lib64/libc.so.6
#1  0x000000000044f0b0 in hash_flush ()
#2  0x0000000000458870 in assoc_dispose ()
#3  0x0000000000434f55 in dispose_variable ()
#4  0x000000000044f0a7 in hash_flush ()
#5  0x0000000000433ef3 in pop_var_context ()
#6  0x0000000000434375 in pop_context ()
#7  0x0000000000451fb1 in ?? ()
#8  0x0000000000451c84 in run_unwind_frame ()
#9  0x000000000043200f in ?? ()
#10 0x000000000042fa18 in ?? ()
#11 0x0000000000430463 in execute_command_internal ()
#12 0x000000000046b86b in parse_and_execute ()
#13 0x0000000000444a01 in command_substitute ()
#14 0x000000000044e38e in ?? ()
#15 0x0000000000448d4e in ?? ()
#16 0x000000000044a1b7 in ?? ()
#17 0x0000000000457ac8 in expand_compound_array_assignment ()
#18 0x0000000000445e79 in ?? ()
#19 0x000000000044a264 in ?? ()
#20 0x000000000042ee9f in ?? ()
#21 0x0000000000430463 in execute_command_internal ()
#22 0x000000000043110e in execute_command ()
#23 0x000000000043357e in ?? ()
#24 0x00000000004303bd in execute_command_internal ()
#25 0x0000000000430362 in execute_command_internal ()
#26 0x0000000000432169 in ?? ()
#27 0x000000000042fa18 in ?? ()
#28 0x0000000000430463 in execute_command_internal ()
#29 0x000000000043110e in execute_command ()
#30 0x000000000041d6d6 in reader_loop ()
#31 0x000000000041cebc in main ()
~

更新：系统在 VMWare 处理的虚拟机中运行。

什么版本的bash？GNU bash，版本 4.1.2(1)-release (x86_64-redhat-linux-gnu)
什么版本的 libc 和其他链接到 bash 的库？

ldd (GNU libc) 2.12

（链接到 bash 的其他库是什么？是否有命令连续获取详细信息？

在运行脚本或交互式 shell 或两者时会发生这种情况吗？如果是脚本，它只发生在一个脚本上还是几个或任何一个脚本上？一般而言，您的 bash 脚本在做什么？您是否从其他进程中获得了段错误？您是否在服务器上运行过内存测试？它有ECC RAM吗？

正如我的问题所述：我不知道，但它应该是由一些预定的脚本或来自交互式 webapp 内部的一些系统调用引起的。它也可以是“脚本中的脚本”，就像这种结构一样：

myVar=$($(some command here ($and here too))

但是我觉得这个问题可能不是 RAM 的物理问题，因为没有其他随机崩溃，只有这个，而且我们也有它在 2 个单独的 VM 上运行在 2 个单独的物理机器上。

更新 2：

从堆栈中我觉得问题可能与关联数组有关：

#1  0x000000000044f0b0 in hash_flush ()
#2  0x0000000000458870 in assoc_dispose ()
#3  0x0000000000434f55 in dispose_variable ()
#4  0x000000000044f0a7 in hash_flush ()

这些变量几乎存在于我们所有的自定义脚本中：有一个主脚本使用了一个包含我们系统常用变量和函数的库。

这个脚本几乎来自我们的每一个脚本。

如何从 coredump 重建堆栈跟踪？

按信号过滤数百个核心转储

如何在 Void Linux 中启用核心转储？

在 Linux 2.6.35 上启用核心转储

如何转换 Coredump .gz 文件以便我可以阅读它

配置 Linux 核心转储程序以永久存储核心

systemd：无法在只读文件系统上创建 coredump

编辑#1

编辑#2

是否可以将程序的内存转储到文件并再次恢复？

如何找到为什么 bash 以信号 11 退出，分段错误

模块 i915 可能缺少固件 /lib/firmware/i915/*

无法获取 jessie backports 存储库

如何将 GPG 私钥和公钥导出到文件

我们如何运行存储在变量中的命令？

如何配置 systemd-resolved 和 systemd-networkd 以使用本地 DNS 服务器来解析本地域和远程 DNS 服务器来解析远程域？

dist-upgrade 后 Kali Linux 中的 apt-get update 错误 [重复]

如何从 systemctl 服务日志中查看最新的 x 行

Nano - 跳转到文件末尾

grub 错误：你需要先加载内核

如何下载软件包而不是使用 apt-get 命令安装它？

问题[core-dump](unix)

编辑#1

编辑#2