AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / server / 问题 / 822479
Accepted
smartenbergen
smartenbergen
Asked: 2016-12-24 07:10:25 +0800 CST2016-12-24 07:10:25 +0800 CST 2016-12-24 07:10:25 +0800 CST

服务器在没有内核恐慌的情况下冻结

  • 772

我们正在运行一个 KVM 节点,该节点不规则地崩溃,表现出非常奇怪的行为。有趣的是,我们已经在另一个节点上遇到了这个问题,它每 1-2 周就崩溃一次。由于找不到硬件问题,我们开始将 VM 迁移到新节点。在我们迁移了 50% 的虚拟机大约一周后,新节点崩溃了,而“旧”节点从那时起运行良好(正常运行时间为 3 周,几个月来我们没有看到如此长的正常运行时间)。

当一个节点崩溃时,我们有时会在 Supermicro IPMI 上看到这些奇怪的东西:

在此处输入图像描述 在此处输入图像描述

我们还看到:

  • “无信号”如服务器已关机(当然不是,而且在 IPMI 主页上也从未显示为已关机)
  • 正常的登录屏幕或服务器的其他正常输出,但冻结

我们从未见过内核恐慌或崩溃前日志中的至少一些消息,完全静默,直到灯突然熄灭。

随着问题从一台服务器“转移”到另一台服务器(全新机器),我认为只剩下几个选项:

  • 特定的虚拟机导致问题
  • 内核错误
  • 关于我们设置的硬件问题

有关机器的更多信息:

  • CentOS 7 最新内核 (3.10.0-514.2.2.el7.x86_64)
  • 带冗余电源的 Supermicro 机箱
  • 具有最新 BIOS 版本的 Supermicro X10DRi / X10DRWi
  • 英特尔至强 E5-2630 v3 / v4
  • 512 GB DDR4 ECC RAM(三星服务器 RAM)
  • 145 台虚拟机正在运行(RAM 和 CPU 远未饱和,这也要感谢 KSM)
  • 软件 RAID-10 8 / 16 SSD

有没有人看到这种行为或者可以对控制台上奇怪的“消息”说些什么?我从来没有见过这样的东西,甚至不知道我应该如何描述这个谷歌搜索。目前我们还不太清楚下一步应该做什么,因为它可能是一切。

提前致谢!

hardware kvm-virtualization kernel server-crashes supermicro
  • 2 2 个回答
  • 2232 Views

2 个回答

  • Voted
  1. Bernhard
    2017-09-28T23:59:15+08:002017-09-28T23:59:15+08:00

    这可能是 CPU 错误。英特尔发布了有关此问题的勘误表,他们还为 E5 v3/v4 CPU 提供了微码更新(日期代码 20170707)。CentOS 7.4 已经有了更新的微码版本 0xb000021(在 CentOS 7.3 中是 0xb00001e)。更换微码或升级到 7.4 可能会有所帮助。这个系统冻结我也遇到了很多麻烦。我更换了主板(X10DRi)、RAM、CPU 和电源,但没有成功。我不能确定这是否是解决方案,因为我更新了微码后没有足够的正常运行时间。Supermicro 仍然没有提供带有当前英特尔微码的更新 BIOS。您可能会从您的分销商处获得 X10DRI 的非官方预发布版本。

    • 2
  2. Best Answer
    smartenbergen
    2017-01-14T05:31:38+08:002017-01-14T05:31:38+08:00

    对此的简短更新:升级到最新的 LTS 内核 (4.4.39) 后,服务器稳定。现在正常运行时间 19 天,所以我想我们明白了。虽然我们并不真正知道根本原因,但我们认为 CentOS 7 内核 (3.10) 对于某些非常现代的硬件来说可能太旧了。由于我们无法提供有用的错误消息(最好的情况下就像内核崩溃),我们决定不向 CentOS 开发人员报告这件事。

    • 0

相关问题

  • 如何在 Linux 机器上找到有关硬件的详细信息?

  • 总大小(磁盘)与总大小(媒体)

  • 如何监控系统在哪里写/读磁盘?[关闭]

  • IP-KVM(在我的例子中是 ADDER Ipeps):轻松防火墙穿越

  • 非品牌笔记本电池?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    新安装后 postgres 的默认超级用户用户名/密码是什么?

    • 5 个回答
  • Marko Smith

    SFTP 使用什么端口?

    • 6 个回答
  • Marko Smith

    命令行列出 Windows Active Directory 组中的用户?

    • 9 个回答
  • Marko Smith

    什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同?

    • 3 个回答
  • Marko Smith

    如何确定bash变量是否为空?

    • 15 个回答
  • Martin Hope
    Tom Feiner 如何按大小对 du -h 输出进行排序 2009-02-26 05:42:42 +0800 CST
  • Martin Hope
    Noah Goodrich 什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同? 2009-05-19 18:24:42 +0800 CST
  • Martin Hope
    Brent 如何确定bash变量是否为空? 2009-05-13 09:54:48 +0800 CST
  • Martin Hope
    cletus 您如何找到在 Windows 中打开文件的进程? 2009-05-01 16:47:16 +0800 CST

热门标签

linux nginx windows networking ubuntu domain-name-system amazon-web-services active-directory apache-2.4 ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve