AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 72358
Accepted
Fake Name
Fake Name
Asked: 2014-07-25 22:25:29 +0800 CST2014-07-25 22:25:29 +0800 CST 2014-07-25 22:25:29 +0800 CST

Melhorando o desempenho da consulta `GROUP BY` no sqlite3

  • 772

Eu tenho um pequeno aplicativo da web que está usando sqlite3 como banco de dados (o banco de dados é bem pequeno).

No momento, estou gerando algum conteúdo para exibir usando a seguinte consulta:

SELECT dbId,
        dlState,
        retreivalTime,
        seriesName,
        <snip irrelevant columns>
        FROM DataItems
        GROUP BY seriesName
        ORDER BY retreivalTime DESC
        LIMIT ?
        OFFSET ?;

Onde limitnormalmente é ~200 e offseté 0 (eles acionam um mecanismo de paginação).

De qualquer forma, agora, essa consulta está acabando completamente com meu desempenho. Leva aproximadamente 800 milissegundos para executar em uma tabela com aproximadamente 67 mil linhas.

Eu tenho índices em ambos seriesNamee retreivalTime.

sqlite> SELECT name FROM sqlite_master WHERE type='index' ORDER BY name;
<snip irrelevant indexes>
DataItems_seriesName_index
DataItems_time_index           // This is the index on retreivalTime. Yeah, it's poorly named

No entanto, EXPLAIN QUERY PLANparece indicar que eles não estão sendo usados:

sqlite> EXPLAIN QUERY PLAN SELECT dbId, 
                                  dlState, 
                                  retreivalTime, 
                                  seriesName 
                                  FROM 
                                      DataItems 
                                  GROUP BY 
                                      seriesName 
                                  ORDER BY 
                                      retreivalTime 
                                  DESC LIMIT 200 OFFSET 0;
0|0|0|SCAN TABLE DataItems
0|0|0|USE TEMP B-TREE FOR GROUP BY
0|0|0|USE TEMP B-TREE FOR ORDER BY

O índice seriesNameé COLLATE NOCASE, se isso for relevante.

Se eu soltar o GROUP BY, ele se comportará conforme o esperado:

sqlite> EXPLAIN QUERY PLAN SELECT dbId, dlState, retreivalTime, seriesName FROM DataItems ORDER BY retreivalTime DESC LIMIT 200 OFFSET 0;
0|0|0|SCAN TABLE DataItems USING INDEX DataItems_time_index

Basicamente, minha suposição ingênua seria que a melhor maneira de executar essa consulta seria voltar do último valor em retreivalTime, e toda vez que um novo valor seriesNamefor visto, anexá-lo a uma lista temporária e, finalmente, retornar esse valor. Isso teria um desempenho um tanto ruim para casos em que OFFSETé grande, mas isso acontece muito raramente neste aplicativo.

Como posso otimizar esta consulta? Posso fornecer as operações de consulta bruta, se necessário.

O desempenho de inserção não é crítico aqui, portanto, se eu precisar criar um ou dois índices adicionais, tudo bem.


Meus pensamentos atuais são um gancho de confirmação que atualiza uma tabela separada usada para rastrear apenas itens exclusivos, mas isso parece um exagero.

performance optimization
  • 2 2 respostas
  • 9486 Views

2 respostas

  • Voted
  1. CL.
    2014-07-26T03:02:36+08:002014-07-26T03:02:36+08:00

    Um índice pode ser usado para otimizar o GROUP BY, mas se o ORDER BY usar colunas diferentes, a classificação não pode usar um índice (porque um índice ajudaria apenas se o banco de dados pudesse ler as linhas da tabela na ordem de classificação ).

    Um índice COLLATE NOCASE não ajuda se você usar um agrupamento diferente na consulta. Adicione um índice 'normal' ou use GROUP BY seriesName COLLATE NOCASE, se for permitido.

    Usar a cláusula OFFSET para paginação não é muito eficiente, porque o banco de dados ainda precisa agrupar e classificar todas as linhas antes de poder passar por cima delas. Melhor usar um cursor de rolagem .

    Observação: não há garantia de que os valores dbIde dlStatevenham de qualquer linha específica; O SQLite permite colunas não agregadas em uma consulta agregada apenas para compatibilidade de bug com o MySQL.

    • 5
  2. Best Answer
    ypercubeᵀᴹ
    2014-07-26T03:27:45+08:002014-07-26T03:27:45+08:00

    Aqui está uma sugestão: adicione um índice (seriesName, retreivalTime)e tente esta consulta. Não será super rápido, mas provavelmente mais eficiente do que o que você tem:

    SELECT d.dbId,
           d.dlState,
           d.retreivalTime,
           d.seriesName,
            <snip irrelevant columns>
    FROM DataItems AS d
      JOIN
        ( SELECT seriesName, 
                 MAX(retreivalTime) AS max_retreivalTime
          FROM DataItems
          GROUP BY seriesName
          ORDER BY max_retreivalTime DESC
          LIMIT ?
          OFFSET ?
        ) AS di
        ON  di.seriesName = d.seriesName
        AND di.max_retreivalTime = d.retreivalTime
    ORDER BY di.max_retreivalTime ;
    

    Ou (variação) usando o PK também, com index on (seriesName, retreivalTime, dbId)e query:

    SELECT d.dbId,
           d.dlState,
           d.retreivalTime,
           d.seriesName,
            <snip irrelevant columns>
    FROM DataItems AS d
      JOIN
        ( SELECT dbId
          FROM DataItems
          GROUP BY seriesName
          ORDER BY MAX(retreivalTime) DESC
          LIMIT ?
          OFFSET ?
        ) AS di
        ON  di.dbId = d.dbId
    ORDER BY d.max_retreivalTime ;
    

    A lógica por trás das consultas é usar apenas o índice para os cálculos da tabela derivada (encontrar o máximo (tempo de recuperação) para cada seriesName e, em seguida, ordenar e fazer o limite de deslocamento).

    Então a própria tabela estará envolvida apenas para buscar as 200 linhas que serão exibidas.

    • 4

relate perguntas

  • Existe um ganho de desempenho ao manipular dados com procedimentos armazenados em vez de alimentá-los em funções após a recuperação?

  • Como você ajusta o MySQL para uma carga de trabalho pesada do InnoDB?

  • Como determinar se um Índice é necessário ou necessário

  • Onde posso encontrar o log lento do mysql?

  • Como posso otimizar um mysqldump de um banco de dados grande?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

    • 12 respostas
  • Marko Smith

    Como fazer a saída do sqlplus aparecer em uma linha?

    • 3 respostas
  • Marko Smith

    Selecione qual tem data máxima ou data mais recente

    • 3 respostas
  • Marko Smith

    Como faço para listar todos os esquemas no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Listar todas as colunas de uma tabela especificada

    • 5 respostas
  • Marko Smith

    Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

    • 4 respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Martin Hope
    Jin conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane Como faço para listar todos os esquemas no PostgreSQL? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh Por que o log de transações continua crescendo ou fica sem espaço? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland Listar todas as colunas de uma tabela especificada 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney O MySQL pode realizar consultas razoavelmente em bilhões de linhas? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx Como posso monitorar o andamento de uma importação de um arquivo .sql grande? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve