À luz da discussão Meta sobre permitir perguntas básicas de SQL em dba.SE , apresento um problema que estou tendo agora, para o qual a resposta no Stack Overflow é inadequada e ingênua. Espero que haja uma solução melhor para o problema do que as apresentadas no SO (já que estou enfrentando esse problema em um aplicativo), e dba.SE parece ser o lugar perfeito para encontrar uma resposta melhor.
Aqui está a pergunta original no Stack Overflow: Como você seleciona cada n-ésima linha do mysql?
Aqui está a resposta aceita:
SELECT *
FROM (
SELECT
@row := @row +1 AS rownum, [column name]
FROM (
SELECT @row :=0) r, [table name]
) ranked
WHERE rownum % [n] = 1
O problema crítico com a resposta aceita é que ela requer puxar a tabela inteira para uma tabela temporária. Portanto, abordei essa preocupação no título desta pergunta.
Considere também que a tabela pode ter excluído linhas, portanto, uma consulta alternativa que fosse simplesmente testar WHERE MOD
a chave primária também não é uma boa solução. Id est, a chave primária não é confiável para ser sequencial.
Existe uma maneira melhor de formular uma consulta que retornaria a cada segundo, décimo ou n-ésima linha arbitrária, que não exija puxar a tabela inteira para a memória, mas também considere as linhas excluídas?
Cada n-ésima linha pode ser definida como tal:
n = 2: Rows 0, 2, 4, 6, 8, ...
n = 10: Rows 0, 10, 20, 30, ...
n = 42: Rows 0, 42, 84, 126, ...
Meu banco de dados de destino é o MySQL 5.5 rodando em uma distribuição Linux comum derivada do Debian.
EDIT: Em resposta à resposta de Thomas:
A solução sugerida não produz o resultado esperado, veja abaixo:
mysql> SELECT
-> @i:=@i+1 AS iterator
-> , t.name
-> FROM
-> events AS t,
-> (SELECT @i:=0) AS dummy
-> WHERE @i % 10 = 0
-> ORDER BY name ASC;
+----------+-------+
| iterator | name |
+----------+-------+
| 1 | 0 |
+----------+-------+
1 row in set (0.29 sec)
mysql> select count(*) from events;
+----------+
| count(*) |
+----------+
| 892507 |
+----------+
1 row in set (0.17 sec)
Para dados de teste em
events
Recupere os valores da chave primária em ordem crescente
Envolva isso em uma consulta para atribuir uma classificação baseada em zero
Envolva isso em uma consulta para selecionar a primeira linha e cada terceira linha depois disso
Por fim, envolva isso em uma consulta para recuperar as outras colunas
retornando
Para amostrar cada n-ésima linha aleatoriamente, eu usaria uma função de hash na chave.
Por exemplo, se você quiser a 10ª linha, poderá expressar sua consulta assim:
Supondo que você escolha uma função de hash (como CRC32) com um bom spread, isso deve proteger contra buracos
key
que existem como resultado de exclusões.Estritamente falando, isso não é garantido para amostrar EXATAMENTE 1/n da tabela. Mas se a tabela for grande o suficiente para que você se preocupe com o desempenho dela, presumo que a solução o aproxime o suficiente.
É importante perceber que não existe um "número de linha" em um banco de dados relacional. Uma tabela é simplesmente um conjunto não ordenado de tuplas. Os índices na tabela podem armazenar as tuplas em uma determinada ordem, mas isso ainda não adiciona nenhuma forma de numeração de linha aos dados. Isso significa que um número de linha só tem significado na presença de uma cláusula ORDER BY.
Em outras palavras, se você quer dizer que deseja a enésima linha com relação a alguma forma de ordenação da tabela, então você deve expressar algo com um ORDER BY no SELECT. Por exemplo, isso fará:
Se
somecolumn
for o índice primário, essa consulta deve ser executada sem classificação ou tabela temporária. Mas você ainda precisa visitar todas as linhas para obter o resultado.