AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / dba / 问题 / 72358
Accepted
Fake Name
Fake Name
Asked: 2014-07-25 22:25:29 +0800 CST2014-07-25 22:25:29 +0800 CST 2014-07-25 22:25:29 +0800 CST

提高 sqlite3 中的 GROUP BY 查询性能

  • 772

我有一个使用 sqlite3 作为数据库的小型 Web 应用程序(数据库相当小)。

现在,我正在使用以下查询生成一些要显示的内容:

SELECT dbId,
        dlState,
        retreivalTime,
        seriesName,
        <snip irrelevant columns>
        FROM DataItems
        GROUP BY seriesName
        ORDER BY retreivalTime DESC
        LIMIT ?
        OFFSET ?;

其中limit通常为 ~200,并且offset为 0(它们驱动分页机制)。

无论如何,现在,这个查询完全扼杀了我的表现。在大约 67K 行的表上执行大约需要 800 毫秒。

seriesName我在和上都有索引retreivalTime。

sqlite> SELECT name FROM sqlite_master WHERE type='index' ORDER BY name;
<snip irrelevant indexes>
DataItems_seriesName_index
DataItems_time_index           // This is the index on retreivalTime. Yeah, it's poorly named

但是,EXPLAIN QUERY PLAN似乎表明它们没有被使用:

sqlite> EXPLAIN QUERY PLAN SELECT dbId, 
                                  dlState, 
                                  retreivalTime, 
                                  seriesName 
                                  FROM 
                                      DataItems 
                                  GROUP BY 
                                      seriesName 
                                  ORDER BY 
                                      retreivalTime 
                                  DESC LIMIT 200 OFFSET 0;
0|0|0|SCAN TABLE DataItems
0|0|0|USE TEMP B-TREE FOR GROUP BY
0|0|0|USE TEMP B-TREE FOR ORDER BY

上的索引seriesName是COLLATE NOCASE,如果相关的话。

如果我放弃GROUP BY,它将按预期运行:

sqlite> EXPLAIN QUERY PLAN SELECT dbId, dlState, retreivalTime, seriesName FROM DataItems ORDER BY retreivalTime DESC LIMIT 200 OFFSET 0;
0|0|0|SCAN TABLE DataItems USING INDEX DataItems_time_index

基本上,我的天真假设是执行此查询的最佳方法是从 中的最新值向后走retreivalTime,每次seriesName看到新值时,将其附加到临时列表,最后返回该值。对于较大的情况,这会导致性能稍差OFFSET,但在此应用程序中这种情况很少发生。

如何优化此查询?如果需要,我可以提供原始查询操作。

插入性能在这里并不重要,所以如果我需要创建一个或两个额外的索引,那很好。


我目前的想法是一个提交挂钩,它更新了一个单独的表,该表仅用于跟踪唯一项目,但这似乎有点矫枉过正。

performance optimization
  • 2 2 个回答
  • 9486 Views

2 个回答

  • Voted
  1. CL.
    2014-07-26T03:02:36+08:002014-07-26T03:02:36+08:00

    索引可用于优化 GROUP BY,但如果 ORDER BY 使用不同的列,则排序不能使用索引(因为索引只有在数据库能够按排序顺序读取表中的行时才有用)。

    如果您在查询中使用不同的排序规则,则 COLLATE NOCASE 索引没有帮助。添加一个“正常”索引,或使用GROUP BY seriesName COLLATE NOCASE(如果允许)。

    使用 OFFSET 子句进行分页不是很有效,因为数据库仍然必须对所有行进行分组和排序,然后才能开始遍历它们。最好使用滚动光标。

    注意:不能保证dbId和dlState值来自任何特定行;SQLite 允许在聚合查询中使用非聚合列,只是为了与 MySQL 兼容。

    • 5
  2. Best Answer
    ypercubeᵀᴹ
    2014-07-26T03:27:45+08:002014-07-26T03:27:45+08:00

    这是一个建议:添加索引(seriesName, retreivalTime)并尝试此查询。它不会超级快,但可能比你拥有的更有效:

    SELECT d.dbId,
           d.dlState,
           d.retreivalTime,
           d.seriesName,
            <snip irrelevant columns>
    FROM DataItems AS d
      JOIN
        ( SELECT seriesName, 
                 MAX(retreivalTime) AS max_retreivalTime
          FROM DataItems
          GROUP BY seriesName
          ORDER BY max_retreivalTime DESC
          LIMIT ?
          OFFSET ?
        ) AS di
        ON  di.seriesName = d.seriesName
        AND di.max_retreivalTime = d.retreivalTime
    ORDER BY di.max_retreivalTime ;
    

    或者(变体)也使用 PK,带有索引(seriesName, retreivalTime, dbId)和查询:

    SELECT d.dbId,
           d.dlState,
           d.retreivalTime,
           d.seriesName,
            <snip irrelevant columns>
    FROM DataItems AS d
      JOIN
        ( SELECT dbId
          FROM DataItems
          GROUP BY seriesName
          ORDER BY MAX(retreivalTime) DESC
          LIMIT ?
          OFFSET ?
        ) AS di
        ON  di.dbId = d.dbId
    ORDER BY d.max_retreivalTime ;
    

    查询背后的逻辑是仅使用索引进行派生表计算(找到每个 seriesName 的 max(retreival-time) 然后排序并执行偏移限制的事情。)

    然后表本身将仅用于获取要显示的那 200 行。

    • 4

相关问题

  • 使用存储过程处理数据与在检索后将其输入函数相比是否有性能提升?

  • 您如何针对繁重的 InnoDB 工作负载调整 MySQL?

  • 如何确定是否需要或需要索引

  • 我在哪里可以找到mysql慢日志?

  • 如何优化大型数据库的 mysqldump?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目

    • 12 个回答
  • Marko Smith

    如何让sqlplus的输出出现在一行中?

    • 3 个回答
  • Marko Smith

    选择具有最大日期或最晚日期的日期

    • 3 个回答
  • Marko Smith

    如何列出 PostgreSQL 中的所有模式?

    • 4 个回答
  • Marko Smith

    列出指定表的所有列

    • 5 个回答
  • Marko Smith

    如何在不修改我自己的 tnsnames.ora 的情况下使用 sqlplus 连接到位于另一台主机上的 Oracle 数据库

    • 4 个回答
  • Marko Smith

    你如何mysqldump特定的表?

    • 4 个回答
  • Marko Smith

    使用 psql 列出数据库权限

    • 10 个回答
  • Marko Smith

    如何从 PostgreSQL 中的选择查询中将值插入表中?

    • 4 个回答
  • Marko Smith

    如何使用 psql 列出所有数据库和表?

    • 7 个回答
  • Martin Hope
    Jin 连接到 PostgreSQL 服务器:致命:主机没有 pg_hba.conf 条目 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane 如何列出 PostgreSQL 中的所有模式? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh 为什么事务日志不断增长或空间不足? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland 列出指定表的所有列 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney MySQL 能否合理地对数十亿行执行查询? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx 如何监控大型 .sql 文件的导入进度? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison 你如何mysqldump特定的表? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 对 SQL 查询进行计时? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas 如何从 PostgreSQL 中的选择查询中将值插入表中? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas 如何使用 psql 列出所有数据库和表? 2011-02-18 00:45:49 +0800 CST

热门标签

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve