是否有任何 MySQL 基准测试工具？[关闭]

Question

ERFANIUM

Asked: 2024-08-17 06:42:25 +0800 CST2024-08-17 06:42:25 +0800 CST 2024-08-17 06:42:25 +0800 CST

单一主键与复合主键用于存储用户隔离数据

772

假设我想将用户提供的数据存储在名为的表中post。

user_id用户数据按列隔离
select sum(likes_count) where user_id = $应该很快
select * from post where id = $应该很快

您能否帮助从性能、索引和典型用例的角度比较一下这些模式？

注意：char(24) 值是 MongoDB 的 ObjectId 十六进制字符串。它们在整个数据库中是唯一的。

方案一：

使用PRIMARY KEY (id)和二级索引(user_id)

CREATE TABLE posts_v1 (
  id CHAR(24) NOT NULL,
  user_id CHAR(24) NOT NULL,
  likes_count INT,
  PRIMARY KEY (id),
  KEY 'user_id_idx' (user_id)
);

使用PRIMARY KEY (user_id, id)和辅助唯一索引(id)

方案 2：

CREATE TABLE posts_v2 (
  id CHAR(24) NOT NULL,
  user_id CHAR(24) NOT NULL,
  likes_count INT,
  PRIMARY KEY (user_id, id),
  UNIQUE KEY 'id_idx' (id)
);

问题：

1- 在哪些情况下，一种模式的性能会优于另一种模式？例如，按 user_id、id 或两者过滤的查询。

2-posts_v2使用进行查询时，架构是否使用较少的 InnoDB 页面读取user_id？我假设在的情况下posts_v2，表在物理上按分组user_id，因此我们可以用较少的页面扫描检索所有用户帖子，我的假设正确吗？

3- 数据完整性和维护：这两种设计对数据完整性、维护或未来模式演变是否有任何影响？

4- 用例：哪些典型的用例或工作负载可能有利于一种设计而不是另一种设计？

我感谢您提供的任何见解或建议！

2 个回答

Voted

White Owl · Answer 1 · 2024-08-17T07:44:06+08:00

从问题 3 开始 - 数据完整性：不，这两个模式并不相同。事实上，它们差别太大，以至于其他问题实际上并不相关。

带有 PK 的表id在字段中将具有唯一值id：

insert into posts_v1 (id, user_id) values(1, 'john')
insert into posts_v1 (id, user_id) values(2, 'john')
insert into posts_v1 (id, user_id) values(2, 'mary') -- error

但带有 PK 的表在字段user_id,id中可以有重复的值：id

insert into posts_v2 (id, user_id) values(1, 'john')
insert into posts_v2 (id, user_id) values(2, 'john')
insert into posts_v2 (id, user_id) values(2, 'mary') -- not an error

但是如果要比较单场PK和多场PK的话，单场PK通常表现更好，当然也有例外，但是多场表现更好的情况很少见。

对你的问题更实际的回答是：首先，决定natural key你的情况是什么，它是一个多字段还是一个单字段？从业务角度而不是从性能角度考虑，选择更好的。之后，你可以unique index在另一个字段（或多个字段）上添加辅助字段。这样，你将获得两种类型查询的覆盖范围——通过一个或多个字段，无论它们是 PK 还是索引的一部分。

Rick James · Answer 2 · 2024-08-18T02:56:14+08:00

模式 2 适合这些查询。

PRIMARY KEY (user_id, id)是加快“SUM”查询速度的关键。在 InnoDB 中，PRIMARY KEY与数据聚类。 select sum(likes_count) FROM ... where user_id = $只需遍历表的子集即可获得SUM该用户的。
select * from post where id = $是“点查询”。因此，如果 PK 的第一列是二级索引，那么速度会足够快id。（PK 会更快，但我们谈论的是毫秒级。）
“用户数据通过 user_id 列进行隔离”——你想要多少“隔离”？上面的语句说明你已经有足够的性能了。

至于那 4 个问题...

大小和页数通常不值得测量。
BTree 节点以看似随机的方式分裂和重新组合。
真正的目标是最小化查询所需的页面数。我在建议这(user_id, ...)有助于 SUM 查询时提到了这一点。
我讨论了上面的两个查询；如果还有其他“昂贵”的查询，我会对它们进行分析。

单一主键与复合主键用于存储用户隔离数据

方案一：

方案 2：

问题：

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

单一主键与复合主键用于存储用户隔离数据

方案一：

方案 2：

问题：

2 个回答

相关问题