关于【query-performance】的问题- 第1页

Doe Jowns

Asked: 2024-06-15 19:21:42 +0800 CST

PostgreSQL 中 CLUSTER 的性能不稳定

我使用的是 PostgreSQL 12，并且有分区表，我想将它们聚类。每个分区的大小大致相同（以 GB 为单位）。但是，性能可能会有很大差异，每个分区的聚类时间从 5 分钟到 1000 分钟不等。

我正在并行对多个分区进行集群，并且我的数据库当前没有收到除 CLUSTER 请求之外的任何请求。

我不完全了解 CLUSTER 过程的来龙去脉。如何解释聚类时间如此大的变化？我可以做些什么来提高性能？

编辑：更准确地说，我有一个 34 GB 的分区，在 13 分钟内完成聚类，还有一个 56 GB 的分区，在 1288 分钟内（几乎一天）完成聚类。这些大小值是聚类前的大小。我正在重新计算大小。

用于检索大小的查询：

SELECT table_name, 
       pg_size_pretty(pg_total_relation_size(table_schema || '."' || table_name || '"')) AS size
FROM information_schema.tables
WHERE table_schema = 'partitionschema' and table_name like 'mytable_%' order by table_name;

不过，在聚类之前我没有执行 ANALYZE 或 VACUUM。

我有 900MB/s 的磁盘 I/O 和 128GB 的 RAM（尽管根据我的 datadog 仪表板，似乎只使用了 40 左右）。我的处理器似乎也不是一个限制。

我有 300 个分区需要集群，在流程的每个步骤中，我都尝试并行集群 8 个分区。每个分区都在 ~50GB 中

其他一些信息：

维护工作内存：4GB
工作模因：64MB
共享缓冲区：32GB
最大wal大小：4GB

user570286

Asked: 2024-05-08 05:07:23 +0800 CST

如何找到最上面的行并仅通过一次扫描来计算行数？

假设我有一个如下所示的架构：

-- Many rows
CREATE TABLE t1(i INTEGER PRIMARY KEY, c1 INTEGER, c2 INTEGER);

-- t1's rows with c1 even
CREATE VIEW t1_filtered(i, c1, c2) AS
  SELECT i, c1, c2 FROM t1 WHERE c1 % 2 == 0;
-- The real WHERE clause is slightly more complex.

假设该表t1包含数百万行：

INSERT INTO t1(i, c1, c2)
  SELECT value, random(), random() FROM generate_series(1, 5000000);

t1假设我想获取具有最高偶数的行的索引以及具有偶数的c1行的计数：c1c2

SELECT
  (SELECT i FROM t1_filtered ORDER BY c1 DESC LIMIT 1),
  (SELECT count(*) FROM t1_filtered WHERE c2 % 2 == 0);

真正的ORDER BY子句要复杂得多，但这足以说明我的问题。

在我看来，这应该只需要一次扫描就可以实现t1，但是EXPLAIN QUERY PLAN说这个查询扫描了t1两次：

QUERY PLAN
|--SCAN CONSTANT ROW
|--SCALAR SUBQUERY 1
|  |--SCAN t1
|  `--USE TEMP B-TREE FOR ORDER BY
`--SCALAR SUBQUERY 2
   `--SCAN t1

如果我加入两个子查询而不是将它们写为结果列，那么查询计划会有所不同，但仍然有两次扫描t1：

QUERY PLAN
|--CO-ROUTINE (subquery-1)
|  |--SCAN t1
|  `--USE TEMP B-TREE FOR ORDER BY
|--MATERIALIZE (subquery-2)
|  `--SCAN t1
|--SCAN (subquery-1)
`--SCAN (subquery-2)

无论如何，我希望这个查询是这样的伪代码：

var top_row = {i: NULL, c1: 0};
var count = 0;
for each {i, c1, c2} in t1:
  if c1 % 2 == 0:
    if c1 > top_row.c1:
      top_row = {i, c1};
    if c2 % 2 == 0:
      count = count + 1;
return {top_row.i, count};

我怎样才能让查询规划器知道这只需要一次扫描？

更新，2024-05-09：我尝试了Charlieface 提出的查询。根据EXPLAIN QUERY PLAN，它确实使查询规划器仅使用一次扫描t1......

QUERY PLAN
|--CO-ROUTINE t
|  |--CO-ROUTINE (subquery-4)
|  |  |--SCAN t1
|  |  `--USE TEMP B-TREE FOR ORDER BY
|  `--SCAN (subquery-4)
`--SCAN t

...但它的运行速度明显比我的原始查询慢：使用测试SQLite REPLSELECT (...), (...)中的两个查询，我发现（对于包含 500 万行随机数据的示例表）我的原始查询的平均运行时间为 2.22 秒样本标准差为 0.03 秒，该查询的平均值为 5.57 秒。开发人员。0.23秒。.timer ont1

我的直觉直觉并没有向我建议，但研究查询计划的“USE TEMP B-TREE FOR ORDER BY”确实建议我在t1(c1). 这确实加快了我原来的查询速度，使得 st 平均需要 1.09 秒。开发人员。0.02秒。然而，令我惊讶的是，索引显然使 Charlieface 的查询花费了更长的时间，甚至可能使其无法终止——我在等待 108 秒后中断了它，然后在重试 32 秒后中断了它，然后我没有'不要再试一次。

Charlieface 的查询确实通过将扫描次数减少t1到 1 来回答了我的问题，但相对于我原来的查询，它的实际性能较差，使我不愿意接受它作为答案。我希望这不会“移动球门柱”太多。我确实将其标记为query-performance，因此性能从一开始就是我问题的一部分。

更新，2024-05-09 #2：使用CREATE INDEX t1_c1 ON t1(c1)，我的原始查询的查询计划变为

QUERY PLAN
|--SCAN CONSTANT ROW
|--SCALAR SUBQUERY 1
|  `--SCAN t1 USING COVERING INDEX t1_c1
`--SCALAR SUBQUERY 2
   `--SCAN t1

Charlieface 查询的查询计划变为

QUERY PLAN
|--CO-ROUTINE t
|  |--CO-ROUTINE (subquery-4)
|  |  `--SCAN t1 USING INDEX t1_c1
|  `--SCAN (subquery-4)
`--SCAN t

根据Charlieface 的评论CREATE INDEX index_per_comment660077_339327 ON t1 (c1 DESC) WHERE (c1 % 2 = 0)（SQLite 不支持），查询计划分别变为：INCLUDE

QUERY PLAN
|--SCAN CONSTANT ROW
|--SCALAR SUBQUERY 1
|  `--SCAN t1 USING COVERING INDEX index_per_comment660077_339327
`--SCALAR SUBQUERY 2
   `--SCAN t1 USING INDEX index_per_comment660077_339327

QUERY PLAN
|--CO-ROUTINE t
|  |--CO-ROUTINE (subquery-4)
|  |  `--SCAN t1 USING INDEX index_per_comment660077_339327
|  `--SCAN (subquery-4)
`--SCAN t

msbit

Asked: 2024-03-28 23:01:30 +0800 CST

“IN”子句中的许多项目导致全表扫描早于预期

我们有一个由 CMS 提供的搜索索引表，其形式为：

CREATE TABLE `craft_searchindex` (
  `elementId` int NOT NULL,
  `attribute` varchar(25) CHARACTER SET utf8mb3 COLLATE utf8mb3_unicode_ci NOT NULL,
  `fieldId` int NOT NULL,
  `locale` char(12) CHARACTER SET utf8mb3 COLLATE utf8mb3_unicode_ci NOT NULL,
  `keywords` text CHARACTER SET utf8mb3 COLLATE utf8mb3_unicode_ci NOT NULL,
  PRIMARY KEY (`elementId`,`attribute`,`fieldId`,`locale`),
  FULLTEXT KEY `craft_searchindex_keywords_idx` (`keywords`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb3 COLLATE=utf8mb3_unicode_ci

作为 CMS 提供的搜索功能的一部分，形成以下查询：

SELECT * FROM `craft_searchindex` WHERE (`keywords` LIKE '% tom %') AND `locale` = 'en_au' AND `elementId` IN (<ids>)

其中是基于先前查询的 sids过滤列表。elementId

我们观察到，当我们在该子句中达到一定数量的项目时IN，性能下降并且查询执行时间变得恒定，如迁移到 InnoDB 之前收集的图表所示（y 轴执行时间以毫秒为单位，x-子句中的轴项目数IN，系列最小值/平均值/最大值）：

EXPLAIN ANALYZE查询的最后一行显示约 33500 个项目的以下内容：

-> Index range scan on craft_searchindex using PRIMARY over (elementId = 1) OR (elementId = 128) OR (33500 more)  (cost=55355 rows=234514) (actual time=0.0376..537 rows=469028 loops=1)

对于约 34000 件商品：

-> Table scan on craft_searchindex  (cost=335885 rows=3.27e+6) (actual time=0.0303..3237 rows=3.72e+6 loops=1)

我对此的解释（与图表相符）是：

扫描主键索引达到某个阈值（一对一，提供线性增长），并且
超过该阈值时，始终会扫描整个表（提供常量值）

我的问题是，考虑到紧邻该阈值的执行时间与高于该阈值的执行时间之间存在显着差异，为什么查询规划器选择放弃扫描索引[*]，并且可以对此采取任何措施（带有约束）查询准备是由 CMS 执行的，所以大部分不在我们手中）？

加入临时表

虽然考虑到 CMS 处理的查询的限制，这对我们来说不是一个解决方案，但我已经采纳了 @Akina 使用索引临时表的建议。这将查询（有效地）更改为：

SET SESSION group_concat_max_len = 1 << 19;
PREPARE ids_stmt FROM 'SELECT GROUP_CONCAT(`id`)
INTO @ids_clause
FROM (
  SELECT `elements`.`id`
  FROM `craft_elements` `elements`
  JOIN `craft_elements_i18n` `elements_i18n` ON elements_i18n.elementId = elements.id
  JOIN `craft_content` `content` ON content.elementId = elements.id
  JOIN `craft_users` `users` ON users.id = elements.id
  WHERE ((elements_i18n.locale = ?) AND (content.locale = ?)) AND (elements.archived = 0)
) AS `ids`';
SET @l = 'en_au';
EXECUTE ids_stmt USING @l, @l;  
DEALLOCATE PREPARE ids_stmt;

SET @search_query = CONCAT("SELECT `craft_searchindex`.* FROM `craft_searchindex` WHERE (`keywords` LIKE '% tom %') AND `locale` = 'en_au' AND `elementId` IN (", @ids_clause, ')');

PREPARE search_stmt FROM @search_query;
EXECUTE search_stmt;
DEALLOCATE PREPARE search_stmt;

到：

PREPARE ids_stmt FROM 'CREATE TEMPORARY TABLE ids_table
(PRIMARY KEY(`id`))
SELECT `elements`.`id`
FROM `craft_elements` `elements`
JOIN `craft_elements_i18n` `elements_i18n` ON elements_i18n.elementId = elements.id
JOIN `craft_content` `content` ON content.elementId = elements.id
JOIN `craft_users` `users` ON users.id = elements.id
WHERE ((elements_i18n.locale = ?) AND (content.locale = ?)) AND (elements.archived = 0)
LIMIT 1';
SET @l = 'en_au';
EXECUTE ids_stmt USING @l, @l; 
DEALLOCATE PREPARE ids_stmt;

SELECT `craft_searchindex`.*
FROM `craft_searchindex`
JOIN `ids_table` ON `craft_searchindex`.`elementId` = `ids_table`.`id`
WHERE (`keywords` LIKE '% tom %') AND `locale` = 'en_au';

这使得执行时间的线性增长远远超过之前的阈值。

有趣的是（也许是因为临时表只有一列）删除主键对执行时间没有影响。

下面是比较这些的图表（时间现在以秒为单位）：

[*]：从一些简单的粗略计算来看，继续扫描索引而不是执行全表扫描仍然低于全表扫描执行时间，直到子句中的项目数IN超过 ~200,000

1000k

Asked: 2024-02-14 19:34:01 +0800 CST

评分表优化构想

我有一个简单的问题，但找不到直接的答案/解释。抱歉，如果重复

我想为一个小型问答游戏建立一个分数表，用户可以在其中提出问题，他们可以是对的，也可以是错的。所以，我想我有 2 个选择，要么是 1 行 = 1 个用户答案的表，如下所示：

用户身份	正确答案	错误的答案
1	0	1
1	0	1
1	1	0
...	...	...

或者一个 1 行 = 1 个用户全局分数的表：

用户身份	正确答案	错误答案
1	42	21
2	100	0
3	12	13
...	...	...

我对数据库/sql优化的经验几乎为0，所以我不知道哪一个是最有效的。

这是我的思考过程：

第一个选项：更好（？）/更快（？）添加/更新分数，因为我不关心当前表状态，我只需要插入一行但是，要获得用户的全局分数，我需要一个重(?) 查询类似

SELECT SUM(正确), SUM(错误) WHERE userId = x;

由于我想在每个页面/请求上显示用户的全局分数，因此我觉得这不是明智的选择。另外，由于 1 行 = 1 个用户答案，因此表格可能会变得非常大。

第一个选项：较慢（？）添加分数，因为我必须更新现有行。意思是对每个答案选择然后更新。不是特别是我的情况，但这个选项不太灵活，因为与第一个选项不同，我无法存储正确/错误回答的问题。但是，这样我就可以获得用户的总分，而无需大量查询。如果 UPDATE 查询可以返回结果行会更好，这样我就不必先 UPDATE 然后 SELECT 来显示。

最后，如果您愿意花时间回答我，您能否简要解释一下其中一个在技术上更好，以及我如何测试它（是否有某种工具/程序）

谢谢

ReynierPM

Asked: 2023-12-27 22:05:06 +0800 CST

条件语句可以用在 WHERE 条件中吗？

我正在做一些事情，发现这个 SQL，我不知道如何正确重写，这意味着使用 PHP PDO。

SQL 看起来像：

$sql = 'SELECT * FROM table WHERE column ' . isset($variable) ? . '=' . $variable : '>0';

基本上，查询的意思是：如果$variable定义了（在 PHP 世界中），则使用=.WHERE 条件，如果未定义，则使用>0.

我可以在 PHP 上稍微清理一下，然后执行以下操作：

$where = $variable ? 'column = ?' : column > ?'; // ternary operator to build the proper where condition
$sql = 'SELECT * FROM table WHERE $where';
$db->row($sql, [$variable ?? 0]); // bind parameters to the query, PDO way, and the operator will use the value of $variable if it is defined otherwise it will use 0

我想它会工作得很好。现在，我想知道我是否可以使用普通 SQL 来实现相同的效果，就像 WHERE 中的条件与 SELECT 中的条件相同，如果可以，它是最佳的吗？或者以编程方式更好更快？

Googlebot

Asked: 2023-11-06 22:12:56 +0800 CST

将数百万个文件插入表中

我将数百万个 XML 文件（每个 1-100MB）归档到一个表中，其结构为

CREATE TABLE Data
(
    ID int(11) unsigned NOT NULL,
    XML longtext COMPRESSED,
    PRIMARY KEY(ID)
) ENGINE=Aria DEFAULT CHARSET=utf8 COLLATE utf8_general_ci ROW_FORMAT=DYNAMIC;

INSERT INTO Data (ID,XML) VALUES ($id,LOAD_FILE('file.xml'));

该过程很慢，大约每秒 2-5 次插入。整个数据库对于 SDD 驱动器来说太大了，我在单独的 HDD 上创建数据库，但我将文件批量移动到 SDD 驱动器以使读取速度更快。请注意，磁盘速度不是决定速率的步骤，因为 XML 数据会因压缩而大幅缩小。

我尝试InnoDB获得并发插入，但是InnoDB ibd的大小是ARIA/MyISAM的三倍，并且InnoDB在HDD上慢得多。

我尝试过ROCKSDB，但无法在单独的磁盘上创建它，因为所有表都有一个目录。另外，ROCKSDB 的内存管理对于这种情况来说非常糟糕（或者我找不到正确的配置）。

我没有尝试ARCHIVE引擎性能，因为它需要ID井然有序。

我当前的解决方案是同时 INSERT 到 SSD 上的临时 InnoDB 表，然后INSERT INTO SELECT从 InnoDB 表到 HDD 上的 ARIA 表。问题在于清空 InnoDB 和启动并发 INSERT 进程的完整性和延迟。

我很感激任何可能的解决方案。

aitap

Asked: 2023-10-27 03:42:40 +0800 CST

如何让本地 MariaDB 与本地 PostgreSQL 一样快？

我们的科学应用程序需要存储和查询许多分子的基本参数。每个分子有 2 到 2800 万行，但分子数量预计会保持较小（目前为 4）。这是我们正在使用的表：

CREATE TABLE `mol_trans` (
  `species_id` int(11) DEFAULT NULL,
  `wl_vac` double DEFAULT NULL,
  `upper_id` int(11) DEFAULT NULL,
  `lower_id` int(11) DEFAULT NULL,
  `prob` double DEFAULT NULL,
  `flag` tinyint(4) DEFAULT NULL,
  KEY `spid_flag_wl` (`species_id`,`flag`,`wl_vac`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_general_ci
 PARTITION BY LIST (`species_id`)
(PARTITION `CaO` VALUES IN (6115) ENGINE = InnoDB,
 PARTITION `CN3` VALUES IN (6121) ENGINE = InnoDB,
 PARTITION `CN2` VALUES IN (6119) ENGINE = InnoDB,
 PARTITION `AlO` VALUES IN (6109) ENGINE = InnoDB)

（分区在这里是为了在需要时更容易删除整个分子，否则这将是一个痛苦的大DELETE。在添加分区之前，性能问题就已经存在了。）

我将使用 10.3.39-MariaDB-0+deb10u1（使用命令行客户端通过 UNIX 域套接字连接）进行测试，但我们在 Windows 10 上的 MySQL 5.6 和 MariaDB 10.11 上看到了相同的问题。

以下查询在我的机器上大约需要45秒，使用以下方法测量time echo "$QUERY" | mysql $DATABASE >/dev/null：

select
  mtr.prob,
  mtr.lower_id,
  mtr.upper_id
from
  mol_trans mtr
where (
  mtr.species_id=6115
  and mtr.wl_vac > 766.0
  and mtr.wl_vac < 883.0
  and mtr.flag = 1
)
order by mtr.wl_vac;

该查询生成 3024559 行并且似乎使用了索引：

+------+-------------+-------+------+---------------+--------------+---------+-------------+----------+-------------+
| id   | select_type | table | type | possible_keys | key          | key_len | ref         | rows     | Extra       |
+------+-------------+-------+------+---------------+--------------+---------+-------------+----------+-------------+
|    1 | SIMPLE      | mtr   | ref  | spid_flag_wl  | spid_flag_wl | 7       | const,const | 14158123 | Using where |
+------+-------------+-------+------+---------------+--------------+---------+-------------+----------+-------------+

我尝试过将数据库转换为 PostgreSQL，虽然我不完全相信转换结果，但同一台机器上相同的查询在不到 6 秒的时间内返回了超过 300 万行。但是 MySQL/MariaDB C 连接器 API 是我们的应用程序已经编写的，我们希望保持集中更新数据库的便利性。

问题：如何加快 MySQL 的速度，使查询完成所需的时间更短，至少在本地服务器上，更接近 PostgreSQL 的 6 秒？我尝试启用 255 字节直方图并运行ANALYZE TABLE mol_trans PERSISTENT FOR ALL，但这使情况变得更糟（运行相同的查询最多需要 2 分钟）。令人惊讶的是，OPTIMIZE TABLE mol_trans查询时间恢复到约 40 秒（通过重新创建表）。此外，如果我执行set profiling=on并运行ANALYZE查询，则大部分时间显示为花费在发送数据上：

+------------------------+-----------+
| Status                 | Duration  |
+------------------------+-----------+
| Starting               |  0.000078 |
| Checking permissions   |  0.000005 |
| Opening tables         |  0.000021 |
| After opening tables   |  0.000004 |
| System lock            |  0.000004 |
| Table lock             |  0.000004 |
| Init                   |  0.000028 |
| Optimizing             |  0.000027 |
| Statistics             |  0.000088 |
| Preparing              |  0.000021 |
| Sorting result         |  0.000008 |
| Executing              |  0.000003 |
| Sending data           | 40.324591 |
| End of update loop     |  0.000032 |
| Query end              |  0.000002 |
| Commit                 |  0.000003 |
| Closing tables         |  0.000003 |
| Unlocking tables       |  0.000001 |
| Closing tables         |  0.000008 |
| Starting cleanup       |  0.000002 |
| Freeing items          |  0.000006 |
| Updating status        |  0.000011 |
| Reset for next command |  0.000002 |
+------------------------+-----------+

当与远程服务器通信时，我可以在提交查询后很快看到查询结果以文本形式出现在 Wireshark 中（终端保持沉默，直到收到整个结果）。有没有办法加快文本格式化过程？MariaDB 文档表明准备好的语句可能会导致使用二进制协议，这可能会导致序列化速度更快。或者是吗？我编译了一个测试程序mysql_store_result，使用和下载查询结果mysql_stmt_fetch，看起来这两种方法的工作速度大致相同。

我还有其他选择吗？

Francesco Mantovani

Asked: 2023-08-28 19:20:46 +0800 CST

计算total_worker_time（以分钟为单位）

我有一个简单的查询，可以通过 query_plan_hash 和 query_hash显示前 10 个经过的时间：

PRINT '-- top 10 elapsed time  by query_plan_hash and query_hash --'

SELECT TOP 10 query_plan_hash
    ,query_hash
    ,sum(execution_count) AS 'execution_count'
    ,sum(total_worker_time) AS 'total_worker_time'
    ,SUM(total_elapsed_time) AS 'total_elapsed_time'
    ,SUM(total_logical_reads) AS 'total_logical_reads'
    ,max(REPLACE(REPLACE(REPLACE(SUBSTRING(CONVERT(NVARCHAR(4000), st.[text]), qs.statement_start_offset / 2 + 1, CASE 
                            WHEN qs.statement_end_offset = - 1
                                THEN LEN(st.[text])
                            ELSE qs.statement_end_offset / 2 - qs.statement_start_offset / 2 + 1
                            END), CHAR(13), ' '), CHAR(10), ' '), CHAR(09), ' ')) AS sample_statement_text
FROM sys.dm_exec_query_stats AS qs
CROSS APPLY sys.dm_exec_sql_text(qs.sql_handle) AS st
GROUP BY query_plan_hash
    ,query_hash
ORDER BY sum(total_elapsed_time) DESC;
GO

我如何计算：

总工作时间
总经过时间
逻辑读取总数

以分钟而不是毫秒为单位？

Greg

Asked: 2023-06-15 07:43:01 +0800 CST

Sql Perf - 为什么查询执行聚簇索引扫描而不是使用定义的非聚簇索引

我有一个对非常大的表执行聚簇索引扫描的查询，该扫描在某些情况下会导致超时。需要帮助理解为什么它不使用定义的非聚集索引。

这是查询：

DECLARE @StartDate datetime = '2023-03-16 00:00:00';

DECLARE @TerminalIds [dbo].[udtBigInt]; -- user defined table with a BIGINT col
INSERT INTO @TerminalIds ([Id])
SELECT [EquipmentId]
FROM #mechanicsTerminal;

SELECT [DataRecId]
    , [RawData]
    , [RecordingTime]
    , [EquipmentId]
FROM [dbo].[Data]
WHERE [EquipmentId] IN (SELECT [Id] FROM @TerminalIds)
AND [RecordingTime] >= @StartDate
ORDER BY [DataRecId] DESC
OFFSET 0 ROWS FETCH NEXT 50 ROWS ONLY;

这是表定义：

CREATE TABLE [dbo].[Data](
    [DataRecId] [bigint] IDENTITY(1,1) NOT NULL,
    [RawData] [nvarchar](max) NOT NULL,
    [CreatedDateUTC] [datetime] NOT NULL,
    [RecordingTime] [datetime] NOT NULL,
    [EquipmentId] [bigint] NOT NULL,
    [DataSetId] [uniqueidentifier] NULL,
    [SourceType] [nvarchar](50) NULL,
    [Name] [nvarchar](100) NULL,
PRIMARY KEY CLUSTERED ( DataRecId] ASC)
GO
ALTER TABLE [EJ].[Data]  WITH CHECK ADD  CONSTRAINT [chk_Data_RawData] CHECK  ((isjson([RawData])=(1)))
GO

以下是索引：

CREATE INDEX [nc_Data_DataSetId_includes] 
ON [dbo].[Data] ( [DataSetId] ) INCLUDE ( [DataRecId], [RawData], [RecordingTime]);
GO
CREATE INDEX [nc_Data_EquipmentId_includes] 
ON [dbo].[Data] ( [EquipmentId] ) INCLUDE ( [DataSetId], [RawData]);
GO
CREATE INDEX [nc_Data_EquipmentId_RecordingTime_Name_includes] 
ON [dbo].[Data] ( [EquipmentId], [RecordingTime], [Name] ) INCLUDE ( [DataRecId], [RawData]);
GO

这是实际的执行计划：

https://www.brentozar.com/pastetheplan/?id=B1oq7TDD3

使用此特定数据，查询将在亚秒级执行。

然而，有一种情况是中只有三个记录@TerminalIds，而中没有匹配的记录[dbo].[Data]，查询永远不会完成。这是 45 秒后的计划。

https://www.brentozar.com/pastetheplan/?id=rJJMRavDn

我试过的：

更新统计数据并重新编译主过程
继续而不是用子句做子INNER JOIN查询@TerminalIdsIN

Elikill58

Asked: 2023-04-19 04:15:11 +0800 CST

如何解决 row_number 和多模式的性能问题？

在收到如何获得有效排名计数器的答案后，我适应了我自己的系统。但是现在，我遇到了性能问题。我所有的请求都非常快（大多数请求不到 0.0005 秒），但是当使用ROW_NUMBER()多个模式时，它需要超过 0.2 秒。

这是一个完整的例子：

模式 1，名为sanctions，有一个名为的表bans，由以下内容组成：

id, 自增字段
uuid, 带有索引的 varchar
其他内容与问题无关

该表实际有 400 多行。

模式 2，名为stats，有一个名为的表players，由以下内容组成：

id, 自增字段
uuid, 带有索引的 varchar
coins，双倍的
其他内容与问题无关

该表实际有 2000 多行。

我的完整查询是这样的：

SELECT
   uuid,
   (SELECT count(*) FROM sanctions.bans WHERE uuid = p.uuid) as nb,
   row_number() OVER (order by coins DESC) counter
FROM stats.players p;

大约需要 0.22 秒。

现在，让我们逐部分检查：

运行时SELECT count(*) FROM arkbans.litebans_bans WHERE uuid = p.uuid（并用p.uuid一个值替换），我从不超过 0.0002 秒。

运行时：

SELECT
   uuid,
   row_number() OVER (order by coins DESC) counter
FROM stats.players p;

大约需要 0.0017 秒。

用ANALYZE钥匙：

在此处输入图像描述

随着ANALYZE FORMAT=JSON：在这里

查询分析：

WITH Bans AS
(
    SELECT uuid, COUNT(*) AS BanCount
    FROM sanctions.bans
    GROUP BY uuid
)
 
SELECT
   p.uuid,
   COUNT(b.BanCount) as nb,
   row_number() OVER (order by MAX(p.coins) DESC) counter
FROM stats.players p
LEFT JOIN Bans b ON p.uuid = b.uuid

我该如何解决这个性能问题？

注意：这里的“硬币”栏是一个例子。实际上，超过 60 个列将使用此请求。所以像这样为每一列添加索引对我来说不是一个选项（索引太多，值太多）

注意 2：抱歉，不能做 db fiddle，因为它在多个数据库上并且有很多数据。

PostgreSQL 中 CLUSTER 的性能不稳定

如何找到最上面的行并仅通过一次扫描来计算行数？

“IN”子句中的许多项目导致全表扫描早于预期

加入临时表

评分表优化构想

条件语句可以用在 WHERE 条件中吗？

将数百万个文件插入表中

如何让本地 MariaDB 与本地 PostgreSQL 一样快？

计算total_worker_time（以分钟为单位）

Sql Perf - 为什么查询执行聚簇索引扫描而不是使用定义的非聚簇索引

如何解决 row_number 和多模式的性能问题？

连接到 PostgreSQL 服务器：致命：主机没有 pg_hba.conf 条目

如何让sqlplus的输出出现在一行中？

选择具有最大日期或最晚日期的日期

如何列出 PostgreSQL 中的所有模式？

列出指定表的所有列

如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

你如何mysqldump特定的表？

使用 psql 列出数据库权限

如何从 PostgreSQL 中的选择查询中将值插入表中？

如何使用 psql 列出所有数据库和表？

问题[query-performance](dba)

加入临时表