- 使用以下方法有什么缺点?
- 可以采取哪些措施来防止有人错误地更新计数?
- 以下方法是反模式吗?如果是,有什么更好的方法存在?
假设:
应用程序是一个公共 wiki/论坛(如 stackexchange)
- 该应用程序读取量很大。选择将是最终用户提出的 99% 的查询
- 最终用户不执行批量插入。它们可能仅用于开发/维护工作
- 需要同时写入表
- 计数估计已经足够好了。确切的数量将是最重要的
方法
考虑两个实体,Students
每个实体Courses
都有对应的表。我们还有一个student_courses
存储多对多映射 b/w 学生和课程的表。
create table students (
id bigserial primary key,
name text
);
create table courses (
id bigserial primary key,
content text
);
create table student_courses (
student_id bigint not null references students,
course_id bigint not null references courses,
primary key (student_id, course_id)
);
create index on student_courses (course_id);
要找到给定学生的课程数量,我们可以执行
select count(1)
from student_courses
where student_id = 123;
如果这些计数查询很频繁(假设您希望始终显示学生姓名和课程计数),优化的一种方法是在两个实体中维护一个计数变量,然后放置插入和删除触发器。
alter table students add column course_count bigint default 0;
alter table courses add column student_count bigint default 0;
create function increment_student_course_count() returns trigger as
$$begin
update students
set course_count := course_count + 1
where student_id = new.student_id;
update courses
set student_count := student_count + 1
where course_id = new.course_id;
return new;
end;$$
create trigger after_insert_update_counts
after insert
on student_courses
for each row execute procedure increment_student_course_count();
create function decrement_student_course_count() returns trigger as
$$begin
update students
set course_count := course_count - 1
where student_id = new.student_id;
update courses
set student_count := student_count - 1
where course_id = new.course_id;
return new;
end;$$
create trigger after_delete_update_counts
after delete
on student_courses
for each row execute procedure decrement_student_course_count();
一旦到位,查找学生的课程数量很简单
select course_count
from students where student_id = 123;
除了Laurenz 已经提出的内容之外,如果事务包含对多行的操作,这会增加死锁的可能性。由于您的触发器锁定了表中的一行和
students
表中的另一行,因此courses
您最好确保所有可能交织在一起的写访问严格遵循某种通用排序顺序。对于表格来说似乎特别成问题courses
,因为许多学生可能在不同的交易中大约在同一时间注册。如果这些事务不仅仅是在 中写入单行student_courses
,则可能会出现问题。我没有看到由于并发导致数据错误的危险,因为每个事务必须等待竞争事务完成才能更新有争议的行 - 这突出了写入操作的潜在成本损失。通过写活动保持您的事务紧密。
另一个问题是重复写入会使您的主表
students
和courses
. 每个UPDATE
写入一个新的行版本。这些行越宽,影响就越大。尤其是面对并发写入访问时,可见性可能会受到影响(请参阅可见性图)。autovacuum
可能很难跟上。否则可能会禁用可能的仅索引扫描。表格可能开始膨胀。旨在加快读取速度的全部努力最终可能会减慢读取速度!根据写入频率,考虑计数的“垂直分区”。如果许多查询只获取开始的计数并且不需要(宽?)主行的其余部分,这也可能是相关的。基本上
MATERIALIZED VIEW
只关注计数,但使用触发器手动管理而不是完全成熟的MATERIALIZED VIEW
. 关键是写入一个带有小行的单独表,以应对锁争用、可见性问题和膨胀。当然,还有更多额外的开销。看:使用 PK 和额外的索引
(course_id)
forstudent_courses
,您已经为这两个计数的索引或仅索引扫描设置了完美的设置。此查询将非常快:毫秒的分数。结合应用程序级别的缓存,这可能就是您所需要的。上述所有内容只有在写入与读取相比极为罕见的情况下才会发挥作用(所提到的
99%
可能还不值得付出努力),并且快速获得计数至关重要。在 Postgres
count(*)
中,与.count(<value>)
前者甚至没有开始尽可能快地查看表达式或行值。(count(1)
只是稍微贵一点,因为常量也不涉及行值,但仍然。)不要被在上下文中施加最大成本的
*
符号所迷惑,获取所有 列。在这种情况下的效果实际上是相反的。SELECT *
缺点是:
降低 DML 性能
这就是您要付出的代价:更快地
SELECT
对抗更慢的数据修改。如果您正在运行一次修改多行的语句,则使用使用转换表的语句级触发器可能会更有效。因冗余而导致不一致的危险
手动更新计数几乎没有保护措施。您可以做的最好的事情是使用不同的用户作为表所有者,而不是用于数据修改。然后,您可以使用列级权限来阻止后一个用户修改列。触发功能必须是
SECURITY DEFINER
.如果快速查询的重要性是最重要的,我认为你的方法是可以接受的。