M.N Asked: 2009-07-23 00:01:00 +0800 CST2009-07-23 00:01:00 +0800 CST 2009-07-23 00:01:00 +0800 CST 过去十年中最严重的服务器中断 772 在过去十年中,由于性能问题、瓶颈和可扩展性问题而发生的最严重的服务器中断/停机时间是什么? 两个这样的例子是Twitter 刚流行起来就一直存在的问题,以及2009 年初的谷歌停机。 您知道哪些其他此类事件您认为造成了影响最大用户数的大量破坏?从这些事件中可以学到什么?这些公司如何公开回应他们的停机时间? untagged 13 个回答 Voted micahwittman 2009-12-02T15:45:21+08:002009-12-02T15:45:21+08:00 2003年东北大停电 2003 年东北大停电是 2003 年 8 月 14 日星期四美国东部时间下午 4 点 15 分左右,美国东北部和中西部以及加拿大安大略省发生的大规模大范围停电:UTC -5。当时,这是继 1999 年巴西南部停电之后,历史上第二次最广泛的停电。[1][2] 停电影响了安大略省约 1000 万人和美国八个州的 4500 万人。 一个软件错误通用电气能源公司基于 Unix 的 XA/21 能源管理系统中存在所谓的竞争条件。一旦触发,该漏洞就会使 FirstEnergy 的控制室警报系统停滞一个多小时。系统操作员不知道故障;该故障使他们无法在系统状态发生重要变化时发出声音和视觉警报。[11][12][13] 报警系统故障后,未处理的事件排队,主服务器在 30 分钟内发生故障。然后所有应用程序(包括停止的警报系统)都自动转移到备份服务器,该备份服务器本身在 14:54 失败。服务器故障将操作员计算机控制台的屏幕刷新率从每屏幕 1-3 秒降低到 59 秒。由于缺乏警报,运营商拒绝了美国电力公司关于俄亥俄州东北部 345 kV 共享线路跳闸和重新闭合的电话。技术支持于 15:42 通知控制室人员警报系统故障。 [14] Traveling Tech Guy 2009-07-23T00:23:32+08:002009-07-23T00:23:32+08:00 2008 年 6 月 6 日,我的钱在亚马逊上。 太平洋标准时间上午 10:25 左右,亚马逊零售网站无法访问。所有其他亚马逊服务器和服务都正常运行。此外,还可以通过 https 访问该站点。 该网站关闭了约 2 小时。据估计,亚马逊失去了每分钟 31,000 美元的潜在收入和很大的信誉(亚马逊股票当天下跌 2.7%)。 根本原因被认为是负载平衡层中的错误定义,但亚马逊没有人会确认/否认。 Maxwell 2009-07-23T00:48:32+08:002009-07-23T00:48:32+08:00 2008 年亚马逊 S3 和 EC2 服务中断了 3 个小时,影响了包括Twitter(存储)在内的数千个网站,例如37 个信号。据亚马逊称,这是由于可伸缩性问题(参考链接): 以下是我们今天早些时候遇到的问题的一些额外细节。今天凌晨,太平洋标准时间凌晨 3:30,我们开始在我们的一个地点看到来自多个用户的经过身份验证的请求水平有所提高。虽然我们仔细监控了我们的整体请求量并且这些都保持在正常范围内,但我们并没有监控经过身份验证的请求的比例。重要的是,这些加密请求每次调用消耗的资源比其他请求类型多。 在太平洋标准时间凌晨 4:00 前不久,我们开始看到其他几个用户显着增加了他们的经过身份验证的呼叫量。在我们完成新容量的部署之前,其中的最后一项将身份验证服务推到了最大容量。除了处理经过身份验证的请求外,身份验证服务还对 Amazon S3 处理的每个请求执行帐户验证。这导致 Amazon S3 从太平洋标准时间凌晨 4:31 开始无法处理该位置的任何请求。到太平洋标准时间上午 6 点 48 分,我们已经将足够的容量转移到网上来解决问题。 正如我们今天早些时候所说,尽管我们为过去两年通过这项服务取得的正常运行时间记录感到自豪,但任何停机时间都是不可接受的。作为此次事件的事后分析的一部分,我们已经确定了一系列短期行动以及长期改进。我们正在就以下事项立即采取行动:(a) 改进我们对经过身份验证的请求比例的监控;(b) 进一步提高我们的认证服务能力;(c) 在经过身份验证的呼叫周围增加额外的防御措施。此外,我们已经开始开发服务健康仪表板,并预计很快就会发布。 此致,亚马逊网络服务团队 StackKrish 2009-07-23T01:07:26+08:002009-07-23T01:07:26+08:00 影响微软、谷歌、雅虎、苹果和赛门铁克和趋势科技的防病毒更新服务的中断必须是严重的中断。 http://isc.sans.org/diary.html?date=2004-06-15 Akamai 后来报告说,这次中断是由 Zombified 家用 PC 僵尸网络发起的 DOS 攻击造成的。 http://news.netcraft.com/archives/2004/06/15/ddos_attack_cited_in_akamai_outage.html http://articles.techrepublic.com.com/5100-22_11-5237362.html joeqwerty 2009-12-02T16:29:39+08:002009-12-02T16:29:39+08:00 几周前的 TMobile Sidekick 数据丢失情况如何? Keith 2009-07-23T04:38:00+08:002009-07-23T04:38:00+08:00 我想说 McHost 关闭的时间是去年 11 月,并且根据一些报告,发送的垃圾邮件数量大幅减少了 50-75%。 Coops 2009-07-23T05:15:20+08:002009-07-23T05:15:20+08:00 几个月前,当 a2b2.com、fsck、cheapvps、vaserv 等都出现了几天、几天、几天和几天的故障时呢? squillman 2009-07-23T05:26:04+08:002009-07-23T05:26:04+08:00 这要追溯到过去了,但是2001 年的 MS 中断是非常迷人的。MS 已经在一个子网上设置了他们的 DNS 服务器,当路由器开始下潜时,他们的几乎所有东西都做了…… robbyt 2009-12-02T15:32:45+08:002009-12-02T15:32:45+08:00 伦敦证券交易所! http://www.theregister.co.uk/2009/11/26/lse_crash_again/ 感谢微软。 Peter M 2009-12-02T16:29:16+08:002009-12-02T16:29:16+08:00 任何构成风险列表的内容以及大量评论和讨论。
2003年东北大停电
2003 年东北大停电是 2003 年 8 月 14 日星期四美国东部时间下午 4 点 15 分左右,美国东北部和中西部以及加拿大安大略省发生的大规模大范围停电:UTC -5。当时,这是继 1999 年巴西南部停电之后,历史上第二次最广泛的停电。[1][2] 停电影响了安大略省约 1000 万人和美国八个州的 4500 万人。
2008 年 6 月 6 日,我的钱在亚马逊上。
太平洋标准时间上午 10:25 左右,亚马逊零售网站无法访问。所有其他亚马逊服务器和服务都正常运行。此外,还可以通过 https 访问该站点。
该网站关闭了约 2 小时。
据估计,亚马逊失去了每分钟 31,000 美元的潜在收入和很大的信誉(亚马逊股票当天下跌 2.7%)。
根本原因被认为是负载平衡层中的错误定义,但亚马逊没有人会确认/否认。
2008 年亚马逊 S3 和 EC2 服务中断了 3 个小时,影响了包括Twitter(存储)在内的数千个网站,例如37 个信号。据亚马逊称,这是由于可伸缩性问题(参考链接):
影响微软、谷歌、雅虎、苹果和赛门铁克和趋势科技的防病毒更新服务的中断必须是严重的中断。
Akamai 后来报告说,这次中断是由 Zombified 家用 PC 僵尸网络发起的 DOS 攻击造成的。
几周前的 TMobile Sidekick 数据丢失情况如何?
我想说 McHost 关闭的时间是去年 11 月,并且根据一些报告,发送的垃圾邮件数量大幅减少了 50-75%。
几个月前,当 a2b2.com、fsck、cheapvps、vaserv 等都出现了几天、几天、几天和几天的故障时呢?
这要追溯到过去了,但是2001 年的 MS 中断是非常迷人的。MS 已经在一个子网上设置了他们的 DNS 服务器,当路由器开始下潜时,他们的几乎所有东西都做了……
伦敦证券交易所! http://www.theregister.co.uk/2009/11/26/lse_crash_again/
感谢微软。
任何构成风险列表的内容以及大量评论和讨论。