我似乎无法为此找到明确的答案。SQL Azure SLA 是否涵盖新的 SQL Azure 联合数据库功能?或者这些功能仍然被认为是在 CTP 中?
下面是环境:
在围墙花园中托管论坛/期刊/bboard/电子邮件/社交媒体应用程序的网站(即您付费使用它或被邀请这样做
许多客户在特定的时间段内付费使用该网站(即他们租用网站的访问权限)以便与他们的客户互动。在广泛的领域有几十个客户。
有一个非常广泛的服务水平协议。这意味着它没有说明该网站不能关闭超过十分钟,但有一个绅士的协议,它不会。他们不会为 24/7 的支持付费,因为我们喜欢我们所做的事情。
网站在多个时区以 7 种不同的语言运行。
情况如下:
由于 DDOS 攻击,该站点在美国东部标准时间 5:30 关闭并保持“离线”状态大约两个小时。客户的反应从恼怒到愤怒不等。客户也不是很精通技术。客户习惯于 24/7 的支持,通常会得到很好的支持。
这是问题:
关于 DDOS 攻击,您向客户透露了多少信息?他们想知道网站宕机的原因。
我为一家小型开发公司工作,他们越来越多地被要求根据特定配置为我们的产品制定正式的 SLA。
从开发方面来看,我对此感到满意,但是如果从硬件/平台的角度来看,我们会从软件的角度实现特定的目标,那么我说这些目标是没有意义的——客户只关心整体系统可用性。
我应该从平台的角度看什么?什么样的指标和水平?
另外,有什么问题(例如,从软件的角度来看,我永远不会承诺修复时间 - 我不知道我是否必须重写整个产品来纠正某些问题,所以说我们可以修复它5 天可能是不可能的——从硬件/操作系统/平台的角度来看,我应该避免做什么)?
问候,
我想问一下集体对分布式监控系统的看法和看法,您使用什么以及您知道哪些可能会打勾?
要求相当复杂;
没有单点故障。真的。我死定了!需要能够容忍单/多节点故障,“主”和“工作”,您可以假设没有监控位置(“站点”)中有多个节点,或者在同一个网络上。因此,这可能排除了传统的 HA 技术,例如 DRBD 或 Keepalive。
分布式逻辑,我想在多个网络、多个数据中心和多个大陆上部署 5 个以上的节点。我希望从我的客户的角度来看我的网络和应用程序的“鸟瞰”视图,当您拥有 50 多个节点甚至 500 多个节点时,监控逻辑的奖励积分不会陷入困境。
需要能够处理相当合理数量的主机/服务检查,例如 Nagios,因为大致数字假设每台主机有 1500-2500 个主机和 30 个服务。如果添加更多监控节点允许您相对线性地扩展,那就太好了,也许在 5 年内我可能希望监控 5000 台主机和每台主机 40 项服务!从我上面关于“分布式逻辑”的注释中补充一下,很高兴说:
- 在正常情况下,这些检查必须在 $n 或 n% 的监控节点上运行。
- 如果检测到故障,则在另外 $n 或 n% 的节点上运行检查,关联结果,然后使用它们来确定是否满足标准以发出警报。
图表和管理友好的功能。我们需要跟踪我们的 SLA 并了解我们的“高可用性”应用程序是否 24x7 全天候运行有点有用。理想情况下,您提出的解决方案应该以最少的麻烦进行“开箱即用”的报告。
必须有一个可靠的 API 或插件系统来开发定制检查。
需要对警报保持敏感。我不一定想知道(通过 SMS,凌晨 3 点!)一个监控节点认为我的核心路由器已关闭。我确实想知道他们中是否有一定比例的人同意正在发生一些时髦的事情;)本质上,我在这里谈论的是“法定人数”逻辑,或者将理智应用于分布式疯狂!
我愿意考虑商业和开源选项,尽管我更愿意避开花费数百万英镑的软件:-) 我也愿意接受可能没有任何东西可以打勾所有这些框,但是想问问集体那个。
在考虑监控节点及其位置时,请记住其中大部分将是随机 ISP 网络上的专用服务器,因此在很大程度上超出了我的控制范围。依赖 BGP 馈送和其他复杂网络滑稽动作的解决方案可能不适合。
我还应该指出,过去我已经评估、部署或大量使用/定制了大多数开源风格,包括 Nagios、Zabbix 和朋友——它们确实不是糟糕的工具,但它们总体上持平”分布式”方面,特别是关于我的问题和“智能”警报中讨论的逻辑。
很高兴澄清所需的任何要点。干杯男孩和女孩:-)
对于“正常”场景,您通常对给定月份以下服务的 SLA 正常运行时间有何期望?
我包括我的期望...这个问题的目的是找出 2009 年在 IT 基础设施中设置 SLA 目标的标准基线应该是什么。(同样,在正常情况下——我们不是在谈论亚马逊或谷歌,但我们也不是在谈论比利鲍勃的网站托管在家庭 DSL 上。)
- 功率 (100%)
- 网络/核心路由/交换 (99.999%)
- 静态文件托管 (99.99%)
- 应用程序托管 [单服务器/数据库] (99.95%)
- 电子邮件托管 (99.95%)
- 复杂的应用程序托管/平台[多个服务器/数据库/服务] (99.9%)
(供参考... SLA 计算器)
最后...一个月内可以接受多少维护时间?
上周我们发生了相当严重的中断,影响了几项服务,这使我们脱离了与客户的 SLA。现在一切都已解决,我正在进行事后审查。
从这次审查中,我想提出一份内部文件,描述中断、其影响、我们的响应和解决方案。我想提出一个相当标准的表格以供将来重用。我已经在下面列出了我的想法,但是应该包括哪些其他项目?如果这是与安全相关的事件,您会添加什么?
- 摘要事件的行政级别摘要。
- 受影响的服务
- 影响对我们的用户和 SLA 有何影响?是否有以美元计算的成本、错过的交易、失去的客户等?
- 中断持续时间对于每个受影响的服务(如果存在差异)
- 原因包括原发性和继发性原因
- 解析度
- 事件时间表通知、与外部供应商的联系、客户通知、响应等。
- 我们的响应出现问题 我们对中断的响应是否没有按计划进行?通知的人正确吗?供应商是否履行了合同义务?
- 采取的预防措施我们如何防止这种中断再次发生或减少其影响?
- 检测方法我们对这次中断的检测效果如何?我们如何在未来改进检测?
- 在未来的中断响应中做出的改变
尝试将帖子保留为一项和解释,并且可以使用投票最多的答案来更新此帖子。
- SLA = 服务水平协议
- OLA = 运营/运营级别协议
两者有什么区别?还是真的有区别?