是否有任何 MySQL 基准测试工具？[关闭]

Question

Asked: 2024-05-12 11:15:04 +0800 CST2024-05-12 11:15:04 +0800 CST 2024-05-12 11:15:04 +0800 CST

我对mysql的期望不切实际吗？

772

我刚刚制作了第一个 mysql 数据库和表，但对一个简单的 select 语句的缓慢性能感到惊讶。我的表有 4 亿行，我的 select 语句返回大约 10 万行，但花了 14 分钟！不确定是我的设置有误，还是我对mysql的期望太高了。对于一个设计良好的表来说，从 4 亿行表中返回 100,000 行的预期时间是多少？这是我的设置：

CREATE TABLE CALLS (
quote_date DATE,
quote_time TIME,
expiration DATE,
delta decimal(4,3),
mid decimal(8,4)
);

CREATE INDEX idx_quote_date ON CALLS (quote_date);
CREATE INDEX idx_quote_time ON CALLS (quote_time);
CREATE INDEX idx_expiration ON CALLS (expiration);
CREATE INDEX idx_delta on CALLS (delta);
CREATE INDEX covering_index ON CALLS (quote_date, quote_time, expiration, delta);

我的表实际上只是用于使用 select 语句读取数据，因此我在加载所有数据后执行索引。

我的选择是：

select * from CALLS where DELTA BETWEEN 0.4 and 0.6;

4 个回答

Voted

J.D. · Answer 1 · 2024-05-12T13:43:35+08:00

问：查询计划显示什么？

答：用EXPLAIN ANALYZE来看。

我的猜测是它正在扫描大部分（如果不是整个表）来定位您的数据。这是因为以下问题：

您的查询写得不好，因为它使用的SELECT *是反模式。
您的索引没有为您正在测试的查询正确定义。
4 亿行并不是小事，扫描其中 100,000 行也不是小事。

改进测试用例的方法：

不要使用SELECT *，而是明确列出您想要选择的列。
定义一个包含所有这些列的复合索引，例如，CREATE INDEX idx_delta_expiration_mid on CALLS (delta, expiration, mid);如果您的查询是SELECT delta, expiration, mid FROM CALLS where DELTA BETWEEN 0.4 and 0.6;。这将使索引可供使用，理想情况下可以有效地查找您感兴趣的数据，而不是扫描表。

Rick James · Answer 2 · 2024-05-13T03:59:14+08:00

该查询可能会使用INDEX(delta)您拥有的。它将执行如下（伪代码）：

1. Reach into the B+Tree of INDEX(delta) to find 0.4 (fast)
2. Scan forward until 0.6.
2a. For each index entry, reach over into the main BTree
       using the PRIMARY KEY to find `*` (as in `SELECT *`)
2b. Send all 5 columns to the user.

“2a”中的来回成本相当高，特别是当表大于时innodb_buffer_pool_size。

不指定PRIMARY KEY;是很顽皮的。已为您提供了一份。（此细节不会影响性能。）

您的“covering_index”未覆盖（对于此查询），因为mid丢失了。

复合索引中列的顺序很重要。（但在这个例子中并非如此。）

如果不需要所有列，那么拥有以 delta 开头（因此将使用它）并包含所有需要的列（覆盖）的复合索引会更快。（正如 JD 所指出的。）

有关索引的更多信息： Index Cookbook

Vérace · Answer 3 · 2024-05-13T05:53:21+08:00

一般备注：

你的在哪里PRIMARY KEY？

在我看来，这些数据似乎是不可变的？我的意思是给定的call是历史记录的问题而不是受到多次更新的影响？

从这里，我们得到（警告 - 我不确定这就是我们正在处理的问题）：

看涨期权是买方和卖方之间签订的合同，在规定的到期日之前以特定价格购买特定股票。看涨期权的买方有权利（而非义务）行使看涨期权并购买股票。另一方面，如果买方转让股票，则看涨期权的卖方有义务而非权利交付股票。

你没有库存标识符 - 这让我困惑 - 当然你应该有一个类似的字段identifier CHAR(4)- 或无论你的系统标识符的长度是什么 - 如果它是可变的，请使用VARCHAR(n)- storage = n + 1 字节。

您可以将DATE和TIME一起存储为TIMESTAMP，它可以保存“1970-01-01 00:00:01”(UTC) 和“2038-01-19 03:14:07”(UTC) 之间的值。如果您不需要超过 1 秒的精度，这将节省空间 - 4 个字节与 6 个字节相比。

另外，关于你的PK，从这里开始，如果你的数据变化不大，你不需要代理PRIMARY KEY（通常INTEGER），正如我上面推测的那样，本质上应该是日志表的情况。

第一种可能性：

所以，我会这样设计（下面的所有代码都可以在此处的小提琴上找到）：

CREATE TABLE calls 
(
  stock_id    CHAR(4)      NOT NULL,
  quote_ts    TIMESTAMP    NOT NULL,
  expiry_date DATE         NOT NULL, 
  delta       DECIMAL(4,3) NOT NULL,
  mid         DECIMAL(8,4) NOT NULL,

  PRIMARY KEY (stock_id, quote_ts, expiry_date, delta, mid)
);

delta您可以按如下方式建立索引：

CREATE INDEX delta_ix ON calls (delta);

请注意，如果您这样做，那么INDEX SCAN在运行查询时您会得到一个（使用EXPLAIN ANALYZE）：

EXPLAIN
-> Filter: ((calls.delta >= 4.000) and (calls.delta <= 6.000))  (cost=0.55 rows=3) (actual time=0.0802..0.0847 rows=3 loops=1)
    -> Covering index scan on calls using delta_ix  (cost=0.55 rows=3) (actual time=0.0758..0.0794 rows=3 loops=1)

第二种可能性：

现在，如果过期时间是由中的天数决定的quote_ts，您可以将其存储为SMALLINT（或者即使UNSIGNED TINYINT它永远不会 > 255 天）并使用该DATE_ADD()函数并expiry_date作为存储字段 ( VIRTUAL) - 没有空格，计算是在飞。请参阅小提琴 - 使用您自己的系统进行测试。

CREATE TABLE calls_bis
(
  stock_id    CHAR(4)      NOT NULL,
  quote_ts    TIMESTAMP    NOT NULL,
  expiry_days SMALLINT     NOT NULL,
  delta       DECIMAL(4,3) NOT NULL,
  mid         DECIMAL(8,4) NOT NULL,

  expiry_date DATE AS (DATE_ADD(DATE(quote_ts), INTERVAL expiry_days DAY)) VIRTUAL,


  PRIMARY KEY (stock_id, quote_ts, expiry_days, delta, mid)
  
);

然后在上创建相同的索引delta，然后再次重新运行查询INDEX SCAN。尝试一些不同的查询 - 检查表的大小（+/- INDEXes.

每个记录都会有一定的开销 - 记录存储在页面中（同样，开销），就像INDEXes - 更多开销。因此，要掌握真实的数据使用情况/记录，您必须加载 1M 条记录并在 fiddle 底部执行查询。

有几点需要注意：

我不确定您为什么要从表中检索 400k 条记录 - 您是否正在聚合某些内容？
我不知道增量和中场是如何产生/计算/导出的。如果可以的话GENERATED，就有可能减少表的大小 - 从而减少扫描表所需的时间？
最好NOT NULL在尽可能多的字段上设置 s - 向优化器提供的信息越多，它做好工作的机会就越大。也许这对于在学期过半之前mid无法输入的字段来说是不可能的？call（对交易不太了解）。
您的两个索引 (CREATE INDEX covering_index ON CALLS (quote_date, quote_time, expiration, delta);和CREATE INDEX covering_index ON CALLS (quote_date)可以替换为PRIMARY KEY- a 的第一个字段PK不需要额外的，INDEX因为它无论如何都是前导字段。
BETWEEN最好使用数学运算符（<、<=、>=、）而不是>运算符 - 这些是明确的 - 是BETWEEN包容性的还是排他性的？无论如何，大多数服务器都会将此运算符转换为其他运算符 - 请参阅此处以了解混淆！
使用索引delta_ix，它用于基于值的请求记录的查询delta- 请参阅EXPLAIN ANALYZE小提琴中的。
中字段的顺序PK应取决于您最频繁的查询。对此进行测试。

如果您想详细说明字段是如何生成的，那么我们可能有更多机会减少记录大小并加快查询速度？PS 欢迎来到 dba.se！

bobflux · Answer 4 · 2024-05-13T16:23:08+08:00

假设列“delta”是随机分布的，您的查询将从 400M 行表中选择 100k 随机行。

delta 上有一个索引，但它仍然需要从表中读取 100k 随机分布的行。

14min/100k = 每行 8.4 毫秒，这非常接近 7200rpm 硬盘的随机访问时间...嗯...

因此我猜你正在 7200rpm 的硬盘上运行它。这需要一段时间，没有办法解决。驱动头必须移动才能到达数据。

唯一的解决方案是

要么使用具有高随机 IOPS 的快速 NVME SSD，要么在盒子中放置足够的 RAM 以将整个表保存在缓存中。
或者在（delta，其他列）上使用覆盖索引，这会将随机访问变成顺序访问，速度要快得多。但它会占用大量空间，并且需要一段时间才能建造。

另一个解决方案是使用专门处理此类内容的数据库：

select sum(value) from mqtt_float where value between 1.095 and 1.1;

┌─────────sum(value)─┐
│ 1830854.5649999972 │
└────────────────────┘

1 row in set. Elapsed: 2.669 sec. Processed 2.13 billion rows, 17.04 GB (798.31 million rows/s., 6.39 GB/s.)
Peak memory usage: 2.80 MiB.

“value”列上没有索引，因为它是 MQTT 数据，因此索引位于 (mqtt_topic, timestamp) 上，这也是表顺序和分区键。因此它读取整个表。Clickhouse 将这个 21 亿行表（38 GB）压缩了大约 11 倍，因此它只使用了 3.4GB，NVME SSD 在大约 1 秒内读取，而在便宜的台式电脑上查询在 2.7 秒内完成。这不包括将结果集传输到客户端的时间，在本例中，结果集为 160 万行，因此约为 50MB，在千兆位以太网上需要半秒。

我对mysql的期望不切实际吗？

一般备注：

第一种可能性：

有几点需要注意：

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

我对mysql的期望不切实际吗？

4 个回答

一般备注：

第一种可能性：

有几点需要注意：

相关问题