AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / server / 问题 / 125082
Accepted
Adrian K
Adrian K
Asked: 2010-03-23 12:16:33 +0800 CST2010-03-23 12:16:33 +0800 CST 2010-03-23 12:16:33 +0800 CST

SAN 典型 MTBF

  • 772

我们在工作中的项目中使用 SAN,关于从技术上讲它是单点故障这一事实存在一些争议。似乎没有人有任何硬数据。

所讨论的 SAN 是单个物理盒,但具有内部冗余组件(抱歉 - 不确定 3 它具有什么级别的 RAID,但我可以找到)。

SAN 的典型 MTBF 是多少?PM 将其在项目风险登记册上记录为“相当普遍”——我从未听说过 SAN 出现故障,但我没有任何统计数据显示它的可能性有多大。

有没有人有任何有用的信息?

storage-area-network
  • 4 4 个回答
  • 1209 Views

4 个回答

  • Voted
  1. Chopper3
    2010-03-23T12:26:07+08:002010-03-23T12:26:07+08:00

    这真的一点也不常见,事实上我想说它几乎和整个房间断电一样常见 - 好像它们被正确配置和维护一样,断电是失去完整 SAN 盒的唯一真正方式。

    也就是说,您需要确保它们由两个独立的 UPS 供电,具有双控制器、双开关、多种布线的光纤,并且您需要规划您的机架/阵列布局以应对整个机架的损耗。如果你这样做了,那么你就可以在没有第二个站点的情况下得到尽可能好的覆盖。

    • 4
  2. Best Answer
    icky3000
    2010-03-23T13:43:22+08:002010-03-23T13:43:22+08:00

    在不知道确切的 SAN 以及它是如何配置和管理的情况下,这个问题的任何答案都是猜测。我这么说有两个原因:

    1. 一些 SAN 比其他的更好。我们有一台古老的 EMC CX500,它已经生产了 7 年,没有出现过任何故障。我们的戴尔 MD3000i 一直有问题。你得到你所付出的。

    2. 即使是管理或配置不佳的最佳 SAN,正常运行时间也会很短。我见过一个愚蠢的管理员导致价值 200 万美元的 EMC Symmetrix 在一个月内失败了两次。在我们雇用他之前,它连续近四年没有出现任何问题。

    • 2
  3. jldugger
    2010-03-23T12:59:14+08:002010-03-23T12:59:14+08:00

    自今年年初以来,我们遇到了各种各样的麻烦,以至于“下一个可用的维护窗口”是 SAN 停机的委婉说法。如果你听销售,他们是各种可靠的。在实践中,您不具备在投入生产之前对 SAN 进行折磨测试的专业知识,因此在高需求时暴露您的配置问题取决于命运之箭。

    与实际的磁盘驱动器和其他硬件相比,极其复杂的 SAN 软件或配置失败是一个未知数。这最终意味着您可以根据需要添加尽可能多的物理冗余,但由于它们都运行相同的损坏软件,您仍然会遇到单点故障。

    也就是说,我们似乎运行得更顺畅了,因为我们把整个事情都拿下来了一个固件补丁。我们的 SAN 修复总结报告让我担心,SAN 仍然有太多神奇的想法。

    • 1
  4. damorg
    2010-03-23T13:57:48+08:002010-03-23T13:57:48+08:00

    正如其他人所指出的,正确配置和规范的存储后端(冗余控制器、电源、开关等)出现故障并不常见。我会认真地要求总理详细讨论将其列为共同风险的想法。

    从技术上讲,将“单点故障”记录为风险评估的一部分总是值得的,但是对于 HA 配置中的完全冗余存储是否代表“单点故障”,需要进行认真的讨论。它可能会或可能不会取决于您的组织和应用程序。如果是单点故障,则还值得讨论整个数据中心服务丢失的故障场景(因为冗余的 HA SAN 不太可能完全失败,从而使其他所有设备都处于可用状态)。

    处理这些场景非常昂贵……从冗余数据中心开始,以及诸如地理上延伸的结构、多个完全冗余的 SAN、存储部分的“实时复制”之类的东西。需要这些东西的场景和应用程序并不常见。

    只是我个人的经验:我遇到了导致孤立问题的固件和控制器错误。在极少数情况下,我什至遇到了一个错误,导致主动-主动对中的一个控制器进行转储并触发故障转移。这并没有导致停机。

    我听说过噩梦般的场景,例如控制器脑裂或其他导致整个阵列崩溃的情况,但这种情况很少见,而且永远不能确定这不是由于人为错误或配置错误造成的。(人为错误和配置错误是个大问题……我并不是要轻视它们……但它们不是与单个 SAN 相同意义上的“spofs”。)

    • 1

相关问题

  • Cisco FC SAN 交换机决策

  • 任何人都有在托管/数据中心理想的共享/vps 服务器设置的示例拓扑?

  • 如何监控 SAN 服务器(通过 iSCSI)?

  • Clariion CX 是否存在命令行配置工具

  • 有人对 LeftHand 的 VSA SAN 有经验吗?[关闭]

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    新安装后 postgres 的默认超级用户用户名/密码是什么?

    • 5 个回答
  • Marko Smith

    SFTP 使用什么端口?

    • 6 个回答
  • Marko Smith

    从 IP 地址解析主机名

    • 8 个回答
  • Marko Smith

    如何按大小对 du -h 输出进行排序

    • 30 个回答
  • Marko Smith

    命令行列出 Windows Active Directory 组中的用户?

    • 9 个回答
  • Marko Smith

    什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同?

    • 3 个回答
  • Marko Smith

    如何确定bash变量是否为空?

    • 15 个回答
  • Martin Hope
    MikeN 在 Nginx 中,如何在维护子域的同时将所有 http 请求重写为 https? 2009-09-22 06:04:43 +0800 CST
  • Martin Hope
    Tom Feiner 如何按大小对 du -h 输出进行排序 2009-02-26 05:42:42 +0800 CST
  • Martin Hope
    0x89 bash中的双方括号和单方括号有什么区别? 2009-08-10 13:11:51 +0800 CST
  • Martin Hope
    Kyle Brandt IPv4 子网如何工作? 2009-08-05 06:05:31 +0800 CST
  • Martin Hope
    Noah Goodrich 什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同? 2009-05-19 18:24:42 +0800 CST
  • Martin Hope
    Brent 如何确定bash变量是否为空? 2009-05-13 09:54:48 +0800 CST
  • Martin Hope
    cletus 您如何找到在 Windows 中打开文件的进程? 2009-05-01 16:47:16 +0800 CST

热门标签

linux nginx windows networking ubuntu domain-name-system amazon-web-services active-directory apache-2.4 ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve