Eu tenho um sistema que os usuários finais precisarão consultar, mas não há garantia de que eles sejam bem versados na redação de consultas. Queríamos garantir que cada instrução SELECT terminasse com um LIMIT 100000. Eu pensei em algumas regex para fazer isso e algumas ferramentas. Parece que o Query Rewrite nativo é uma boa opção, mas precisávamos usar ProxySQL para outras coisas, então eu queria ver se alguém conhece uma maneira de forçar isso.
Parece que o padrão ou regex seria algo como: qualquer coisa que comece com select precisa ter um LIMIT na linha final seguido por um espaço e um int igual ou menor que 100000, então talvez um ponto e vírgula.
Alguém teve alguma sorte fazendo isso?
Esqueça. Existem maneiras de escrever consultas "simples", mesmo com um pequeno
LIMIT
, que pode levar horas para ser executado.Como, se você mudar para o MariaDB-5.5.21 (ou posterior), há um "LIMIT ROWS EXAMINED" que seria relativamente eficaz em parar consultas descontroladas.
Um exemplo de onde
LIMIT
não ajuda muito:Será
GROUP BY
, possivelmente envolvendo uma espécie de todas as linhas.ORDER BY
.Ou seja, muito tempo e esforço foram investidos nas etapas 1,2,3; a final
LIMIT
teve muito pouco impacto no tempo total.Confira os servidores proxy - alguns deles podem ter um recurso em que matam qualquer processo que esteja executando mais de X segundos.
Query Rewrite Meus pensamentos antigos sobre Query Rewrite: http://mysql.rjweb.org/doc.php/queryrewrite
Qual é o pior?
Então, alguém escreve uma consulta de longa duração. Ele consumirá alguns recursos e diminuirá a velocidade de outras consultas, mas provavelmente não matará o sistema de forma alguma. Espero que ele fique envergonhado e se esforce mais da próxima vez.
Anedotas
Eu lidei com várias aplicações de séries temporais. A primeira coisa que faço é construir um site para fornecer informações prováveis. E, nos bastidores, construo tabelas de resumo para que as consultas sejam melhores (às vezes 10x) do que na tabela bruta (fato).
As páginas da web apresentam os dados de uma maneira mais fácil de ler do que os não programadores podem obter via SQL desajeitado. E posso testá-los para ver se não prejudicarão o sistema. Quando termino, não tenho medo de que as pessoas acessem minhas páginas da Web que, por sua vez, atingem um conjunto de dados de bilhões de linhas.
Sim, eu construo em
LIMITs
vários lugares - afinal, quem quer rolar por uma página da Web de um milhão de linhas (deveria terminar a renderização)? Eu até dou a eles a capacidade de alterar o limite do padrão sensato que forneço. Mas raramente o fazem.E eu escuto seus pedidos. Eu tento construir rapidamente o que eles pedem. (Isso os impede de exigir acesso direto ao SQL.)
Tabelas de resumo são a chave para o sucesso. Eles não querem resultados item por item; eles querem somas/médias por dia (ou semana ou hora ou...)
É mais fácil para mim escrever o SQL do que explicar as nuances da tabela.
E, sim, sempre há normalização, por isso
JOINs
são necessárias.