我正在使用 MariaDB。
我正在设计一个简单的应用程序,它可以在订阅者订阅的某些网站已更新时向订阅者发送通知。
一个用户可以订阅几个不同的站点,多个用户可以订阅同一个站点。
因此,两个表在真空中都是独立的。两者的简单模式,只是一个
- 包含 id 和 url 的站点表
- 包含 ID 和电话号码的订阅者表
我对效率和可扩展性的暂定流程如下所示
- 每小时从站点表中获取所有站点的 Cron 作业
- 为所有站点发出并行 Web 请求
- 检测已更改的站点(这将与站点表中的另一列进行比较)
- 提醒已更改站点的用户哪些站点已更新(可能还会并行发送警报)
是否有必要为此引入连接表?我觉得它会引入复杂性,因为我必须每次都加入并更新每次对任一订阅者表进行更改时。
或者..我应该只是非规范化..
似乎网站在这里是一种“共同点”(即我会一直检查每个网站是否都发生了变化,但我不一定需要所有订阅者)
所以给定^,我在想也许只是添加一个 Sites.subsriber_ids 字段..
或者..我应该采用 NoSQL 方法吗?
有什么想法和建议吗?
谢谢!
CREATE TABLE provsub (
provider_id int(11) NOT NULL,
subscriber_id int(11) NOT NULL,
created timestamp NOT NULL DEFAULT current_timestamp(),
updated timestamp NOT NULL DEFAULT current_timestamp() ON UPDATE current_timestamp(),
PRIMARY KEY (provider_id,subscriber_id),
KEY subscriber_id (subscriber_id),
CONSTRAINT provsub_ibfk_1 FOREIGN KEY (provider_id) REFERENCES providers (id),
CONSTRAINT provsub_ibfk_2 FOREIGN KEY (subscriber_id) REFERENCES subscribers (id)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 |
联结表不会影响您的性能,尤其是对于仅以每小时一次的频率运行的进程。
NoSQL 在这里也不会为您带来任何优势,并且 IMO 仅应在有无法在常规 RDBMS 中完成的用例时使用。
至于为什么我认为这里不需要非规范化:数据完整性是数据库中最重要的事情,IMO。非规范化通常会导致数据冗余,这对完整性具有更高的潜在风险。它还会导致更重的表,这些表也可能对性能产生影响。我真的看不出有什么理由让你在这里非规范化一个简单的连接表。维护它的额外工作应该是微不足道的,而不是性能瓶颈。
数据完整性可能受到质疑的一个示例是,当您冗余存储数据(例如 a
subscriber
的phoneNumber
多次)时,因为您将在非规范化表中多次拥有相同的记录(对于site
他们订阅的每个记录)。当它们phoneNumber
发生变化时,您需要一种事务一致的方式来更新它们在表中的所有实例,否则您将失去数据完整性。phoneNumber
当然,在您的简单示例中,简单的答案是通过 编写更新语句
subscriberId
,您通常会被覆盖。(这只是一个简单的示例,因为您的用例非常简单。)但是现在您还更新了许多记录而不是一条记录来更改,phoneNumber
这意味着需要定位更多行、从磁盘加载、锁定(这可能导致整个表上的锁升级——不确定这是否发生在 MariaDB 中)、更新并以事务方式写回磁盘。这是非规范化表的性能影响的一个示例。