自从我们从旧的 linux 服务器转移到新机器后,我们不时被 Server 2003“锁定”所困扰。看起来 I/O 等待每天都会经历几次,每个人都会被挂起,直到 O/S 可以解决它。总的来说,每个人都报告说新服务器的响应能力更好,除非它被这个 I/O 积压阻塞。
我们不确定如何解决它。我们只有 16 个用户访问该服务器,并且它的驱动器(RAID 10,所有 15K 驱动器)只使用了 8GB 的空间。磁盘/网络/内存/cpu 的性能计数器都接近于 0 ...除了平均磁盘队列长度,它在用户抱怨的同时猛增。
在 Linux 中,平均负载永远不会超过 2 或 3,而现在队列长度有时会飙升至 10 或 12,即使我们有更快的驱动器、更多驱动器、更多内存、更多内核、相同的应用程序访问服务器等.
第一个问题- 关于我们可以做些什么来追踪和解决这个问题的任何建议?
第二个问题- 有没有办法在内存中创建一个逻辑磁盘驱动器(然后只需 DFS 用物理硬盘驱动器复制它,甚至编写脚本从我们的应用程序复制它)?整个数据驱动器只有 8GB(服务器支持 48GB 内存),但我不知道如何处理。
听起来像是驱动程序问题或硬件故障。我会首先更新所有与存储和芯片组相关的驱动程序和硬件固件。
您可能还想联系制造商的支持热线,询问他们是否遇到过这样的情况。我知道这听起来很疯狂,有一半的时间他们有一个快速的解决方案(或者至少可以识别问题)。
如果您的存储阵列有一个管理程序,请检查它是否有错误或驱动器健康信息。检查重新映射的扇区或驱动器有问题的其他指标。
Chris S 已经为您提供了从哪里开始寻找的重要指示。回复:您的第二个问题,对于您关心的生产数据,我不建议 RAMDrives(甚至是 DFS 复制的)。
如果您的 DFS 复制是同步的,那么如果对您要复制的物理驱动器的写入停止,您的 RAM 驱动器可能会锁定,如果您的复制方案不同步,您将失去电源(并且您的 UPS 电池将神秘地没电),而物理副本处于不一致(或过时)状态:墨菲定律导致的即时数据丢失。