(TL;DR:最后一段)我正在运行在线服务,到目前为止一直在进行离线备份和简单监控以实现弹性和可用性。
弹性是相当手动的,但我相当有信心数据会存活下来。我有点担心数据不太安全,因为我必须主动备份它。由于 UPS 和网络故障,该网站曾多次关闭半天,因为我需要时间做出响应,并且关闭了好几天。
我不喜欢那样。
我一直在关注服务器集群、基于 XEN 的解决方案以及 PaaS 解决方案。我发现没有任何 PaaS 可以提供我所需的安全级别。我正在考虑拆分为低安全和高安全操作,但这只会解决我的托管问题。
我不需要极端的可伸缩性(但我希望 :) 或完美的正常运行时间,但我自然会喜欢它们。暂停几分钟是可以接受的。失去活动记忆很糟糕。丢失磁盘数据是不可接受的。违反安全(公开数据)是不可接受的。我只关心单个应用程序的生存,而不关心 cron 作业或它运行的操作系统(只要它偏执地安全,更喜欢 OpenBSD)。
问题:如何以永不在服务器集群上死机的方式运行应用程序(兼容 Linux 和 BSD)?
编辑:响应您的澄清请求:它是一种用于安全存储私钥的 Web 服务,这意味着可以通过 Internet 访问并在清除后执行私钥操作的 API。私钥很有价值,不能丢失。这些密钥与磁盘同步,因此不需要维护内存。我所说的不朽是指它可能会被暂停,但在暂停后它必须能够继续。内核升级不会是一个重大问题,因为它可能会导致计划内停机。这开始看起来像是复制磁盘和自动故障转移问题。