http://en.wikipedia.org/wiki/CAP_theorem
http://www.cs.berkeley.edu/~brewer/cs262b-2004/PODC-keynote.pdf
我认为这不是很简单,为什么只有两个
- 一致性
- 可用性
- 分区容错
可以适用于任何给定的分布式数据库系统。这个猜想被证明了,但有没有更简单的方法来解释为什么这可能成立?
我不是在寻找证明,只是一种理解为什么这个定理可能有意义的好方法。原因是什么?
http://en.wikipedia.org/wiki/CAP_theorem
http://www.cs.berkeley.edu/~brewer/cs262b-2004/PODC-keynote.pdf
我认为这不是很简单,为什么只有两个
可以适用于任何给定的分布式数据库系统。这个猜想被证明了,但有没有更简单的方法来解释为什么这可能成立?
我不是在寻找证明,只是一种理解为什么这个定理可能有意义的好方法。原因是什么?
好的,让我们假设您有一个分布式数据库。假设您在俄勒冈州有一个节点,在加利福尼亚州有一个节点。CAP 理论说在设置这种类型的数据库时会遇到问题。
例如,如果您从一个数据库中查询数据,则它需要与另一个数据库中的数据相同。这确保了您在一个数据库中的任何值都保证在另一个数据库中( CAP 理论的一致性)。这样做可以让您更新一个数据库中的数据并从另一个数据库中查询,得到相同的结果。
当我们更新俄勒冈节点的数据时,数据会被发送到加利福尼亚节点,这样数据库就保持一致了。为了真正保持一致性,我们必须确保两个数据库都获得更新,然后才能真正保存数据(使用分布式事务的两阶段提交)。换句话说,如果加利福尼亚的数据库由于某种原因(例如硬盘故障)无法保存数据,那么俄勒冈的数据库将不会保存数据并且会导致事务失败。
当我们想要具有高可用性时,就会出现上述分布式事务的问题。在上面的这种情况下,尝试使两个数据库同步的过程是一个非常非常缓慢的过程。(想象一下,我们必须将数据从俄勒冈州发送到加利福尼亚州,确保它到达那里,确保两个数据库都锁定了数据,等等。)当我们想要一个即使在高需求时期。(这是 CAP 定理的可用性。)
通常,我们为了确保高可用性所做的是使用复制而不是分布式事务。因此,我们不保证加利福尼亚可以接受数据,而是继续将其存储在俄勒冈节点中,然后在我们处理数据时将数据发送到加利福尼亚。这保证了我们始终可以存储数据,无论加利福尼亚是否准备好存储数据。
这提高了可用性,但以一致性为代价。看,如果有人更新了俄勒冈州的数据,然后有人(同时)读取了加利福尼亚州的数据,他们并没有得到新的数据——数据库不再一致。事实上,直到俄勒冈州将数据发送到加利福尼亚州,它们才会保持一致!
所以,这就是可用性与一致性的权衡。
分区容限是 CAP 理论的第三个方面。在这种情况下,分区是指数据库(或其他分布式系统)可以分成单独的部分并且仍然可以正常运行的想法。
问题变成了,当两个数据库都正常运行,但从俄勒冈州到加利福尼亚州的链接被切断时会发生什么?
如果我们更新俄勒冈州的数据库,我们需要以一种或另一种方式(分布式事务或复制)将数据获取到加利福尼亚。但是,如果两者之间的链接被切断,那么系统就会被分割,并且数据库不再链接在一起。
发生这种情况时,您的选择是以可用性为代价停止允许更新(以保持一致性)或以一致性为代价允许更新(以保持可用性)。
如您所见,分区容差在一致性和可用性之间产生了直接的权衡。
显然不止这些,但这些只是分布式系统的这三个主要方面如何相互支持和相互对抗的几个例子。 Julian Browne对 CAP 理论的解释是了解更多信息的好地方。