如果收到段错误信号,我的应用程序通常会崩溃并打印堆栈以记录。
但在某些环境中,“dmesg”会显示与我的应用程序相关的段错误消息,但应用程序的正常运行时间要长得多。
可以抑制段错误并且应用程序没有收到信号吗?或者来自 dmesg 的错误可能意味着什么?
如果收到段错误信号,我的应用程序通常会崩溃并打印堆栈以记录。
但在某些环境中,“dmesg”会显示与我的应用程序相关的段错误消息,但应用程序的正常运行时间要长得多。
可以抑制段错误并且应用程序没有收到信号吗?或者来自 dmesg 的错误可能意味着什么?
在后台运行的程序可以很好地利用处理 SIGSEGV,只要在退出之前记录它与上下文一起发生的事实。这不仅可以指示日志文件中出了什么问题,而且还可以提供包含在错误报告中的有用信息。是的,该信号可以被忽略,但这只能通过刻意的行动进行,而且几乎总是一个坏主意(除非您在具有已知错误 vmm 子系统的实验内核下进行测试)。
不幸的是,一旦该信号被捕捉到,任何事情都是可疑的。例如,在 SEGV 处理程序中使用任何分配内存的东西很可能是个坏主意。printf() 等可变参数函数也是如此。所以是的,当应用程序处理信号时,它可能不会有效地执行此操作,因此您只能在 dmesg 中看到它的痕迹。
无论如何,是的,信号被发送到应用程序,但是 SEGV 不是实时信号,可以由内核合并。即,如果一个程序访问它无权访问的内存 15 次,那么很有可能实际上只有一个SEGV 会被传递,这取决于非法内存访问的时间。
在 SEGV 处理程序中,open() write() 和 close() 是您的朋友,它们使用特殊的调试日志(即不是以前可能已打开的日志文件流)。
应用程序可以忽略或对分段错误信号进行一些特殊处理。信号和相关页面的手册页上有详细信息。
我看到的一种可能的情况可能导致所描述的行为(dmesg 报告段错误但应用程序正在运行)是应用程序分叉和子进程段错误。要知道是否是这种情况,请检查 dmesg 报告的进程 id 是否与当前正在运行的进程相同。
分段错误通常意味着应用程序内部状态出了问题。它可能已经损坏,无法运行信号处理程序——应该打印堆栈转储的信号处理程序也可能崩溃。
编辑:我不太了解“正常运行时间”部分,所以我跳过了它。现在我看到您的问题是“为什么应用程序仍在运行”,所以这是新的答案:
是的,应用程序可以在 SIGSEGV 中存活。有时 SIGSEGV 只会被发送到一些不太重要的线程(它应该杀死整个应用程序,但有时它不会)甚至只是一个子进程——你看到的一个应用程序可能是多个进程或线程。
如果进程对内存做了不应该做的事情,内核会自动发送 SIGSEGV;但是可以捕获信号并且进程可以运行信号处理程序,该处理程序可能会尝试从故障条件中恢复。在这种情况下,进程可以继续运行。
信号也可以完全忽略,但这是应该避免的;获得 SIGSEGV 通常意味着发生了一些非常非常错误的事情。