AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 7763
Accepted
gbn
gbn
Asked: 2011-11-12 02:16:04 +0800 CST2011-11-12 02:16:04 +0800 CST 2011-11-12 02:16:04 +0800 CST

Anomalia agregada do MySQL

  • 772

Eu estava verificando a seletividade de algumas colunas para um índice.
Onde está documentado esse comportamento de "ignore o que eu lhe dou"?

Isso dá 4.851.908, 4.841.060 e 1.000.052

SELECT
     COUNT(*), 
     COUNT(DISTINCT Col1), COUNT(DISTINCT Col2)
FROM Sometable;

Isso dá 4.843.634 pares únicos de acordo com a extensão do MySQL

SELECT COUNT(DISTINCT Col1, Col2) FROM Sometable

O seguinte está errado: o COUNT(DISTINCT colx) individual fornece a contagem de pares exclusivos de 4.843.634, independentemente de qualquer coluna de preenchimento ou ordem de expressão.

Eu esperava COUNT(DISTINCT Col1) = 4,841,060, e COUNT(DISTINCT Col1) = 1,000,052.

SELECT COUNT(DISTINCT Col1), COUNT(DISTINCT Col2) FROM Sometable

SELECT COUNT(DISTINCT Col2), COUNT(DISTINCT Col1) FROM Sometable

SELECT COUNT(DISTINCT Col1), 1 AS Filler, COUNT(DISTINCT Col2) FROM Sometable

Mas isso fornece valores corretos novamente com outro agregado (como COUNT(*)acima)

SELECT COUNT(DISTINCT Col1), MAX(col1) AS Filler, COUNT(DISTINCT Col2) FROM Sometable

Dúvidas, caso não tenha ficado claro:

  • Por que COUNT(DISTINCT Col1), COUNT(DISTINCT Col2)se comporta comoCOUNT(DISTINCT Col1, Col2)
  • Por que outro agregado é necessário para fazê-lo funcionar?
mysql aggregate
  • 2 2 respostas
  • 295 Views

2 respostas

  • Voted
  1. Best Answer
    Jack Douglas
    2011-11-13T08:00:22+08:002011-11-13T08:00:22+08:00

    Parece que você está atingindo este bug de regressão:

    select count(distinct N1), count(distinct N2) from test.AA" funciona incorretamente
    ...
    "Este bug acontece quando existe um índice único"

    Uma das soluções sugeridas é usar sql_buffer_result

    • 7
  2. Aaron Brown
    2011-11-13T05:21:04+08:002011-11-13T05:21:04+08:00

    Sem ver seus resultados exatos, não tenho certeza se entendi qual é o problema. Eu tentei isso em uma tabela aleatória na minha máquina e obtive os resultados que eu esperava.

    mysql> select count(*), count(distinct location_country), count(distinct referer_name) from piwik_log_visit;
    +----------+----------------------------------+------------------------------+
    | count(*) | count(distinct location_country) | count(distinct referer_name) |
    +----------+----------------------------------+------------------------------+
    |    44176 |                              109 |                          291 |
    +----------+----------------------------------+------------------------------+
    1 row in set (0.81 sec)
    
    
    mysql> select count(distinct location_country,referer_name) from piwik_log_visit;
    +-----------------------------------------------+
    | count(distinct location_country,referer_name) |
    +-----------------------------------------------+
    |                                           932 |
    +-----------------------------------------------+
    1 row in set (0.19 sec)
    
    mysql> select count(distinct location_country), count(distinct referer_name) from piwik_log_visit;
    +----------------------------------+------------------------------+
    | count(distinct location_country) | count(distinct referer_name) |
    +----------------------------------+------------------------------+
    |                              109 |                          291 |
    +----------------------------------+------------------------------+
    1 row in set (0.16 sec)
    
    mysql> select count(distinct referer_name), count(distinct location_country) from piwik_log_visit;
    +------------------------------+----------------------------------+
    | count(distinct referer_name) | count(distinct location_country) |
    +------------------------------+----------------------------------+
    |                          291 |                              109 |
    +------------------------------+----------------------------------+
    1 row in set (0.16 sec)
    
    mysql> select count(distinct location_country), 1 as filler, count(distinct referer_name) from piwik_log_visit;
    +----------------------------------+--------+------------------------------+
    | count(distinct location_country) | filler | count(distinct referer_name) |
    +----------------------------------+--------+------------------------------+
    |                              109 |      1 |                          291 |
    +----------------------------------+--------+------------------------------+
    1 row in set (0.16 sec)
    
    mysql> select count(distinct location_country), max(location_country) as filler, count(distinct referer_name) from piwik_log_visit;
    +----------------------------------+--------+------------------------------+
    | count(distinct location_country) | filler | count(distinct referer_name) |
    +----------------------------------+--------+------------------------------+
    |                              109 | zw     |                          291 |
    +----------------------------------+--------+------------------------------+
    1 row in set (0.25 sec)
    

    Você diz

    Todos eles dão 4.843.634 também, o que não é o que eu pedi

    SELECT COUNT(DISTINCT Col1), COUNT(DISTINCT Col2) FROM Sometable

    SELECT COUNT(DISTINCT Col2), COUNT(DISTINCT Col1) FROM Sometable

    SELECT COUNT(DISTINCT Col1), 1 AS Filler, COUNT(DISTINCT Col2) FROM Sometable

    mas isso não faz o menor sentido. As duas primeiras consultas devem retornar duas colunas, a última deve retornar 3.

    Você pode fornecer seus resultados reais alinhados com o que você esperava ver e talvez possamos descobrir se há um problema real ou se você está simplesmente entendendo mal alguma coisa.

    Para referência, executei isso no Percona Server 5.5.16

    mysql> select @@version;
    +---------------+
    | @@version     |
    +---------------+
    | 5.5.16-55-log |
    +---------------+
    1 row in set (0.00 sec)
    

    EDIT: Eu também tentei isso em um conjunto de dados diferente com ~ 5MM linhas e obtive os mesmos resultados... tudo verificado. Isso foi no Percona Server 5.1.43

    • 0

relate perguntas

  • Existem ferramentas de benchmarking do MySQL? [fechado]

  • Onde posso encontrar o log lento do mysql?

  • Como posso otimizar um mysqldump de um banco de dados grande?

  • Quando é o momento certo para usar o MariaDB em vez do MySQL e por quê?

  • Como um grupo pode rastrear alterações no esquema do banco de dados?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Como você mostra o SQL em execução em um banco de dados Oracle?

    • 2 respostas
  • Marko Smith

    Como selecionar a primeira linha de cada grupo?

    • 6 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Posso ver Consultas Históricas executadas em um banco de dados SQL Server?

    • 6 respostas
  • Marko Smith

    Como uso currval() no PostgreSQL para obter o último id inserido?

    • 10 respostas
  • Marko Smith

    Como executar o psql no Mac OS X?

    • 11 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Marko Smith

    Passando parâmetros de array para um procedimento armazenado

    • 12 respostas
  • Martin Hope
    Manuel Leduc Restrição exclusiva de várias colunas do PostgreSQL e valores NULL 2011-12-28 01:10:21 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Stuart Blackler Quando uma chave primária deve ser declarada sem cluster? 2011-11-11 13:31:59 +0800 CST
  • Martin Hope
    pedrosanta Listar os privilégios do banco de dados usando o psql 2011-08-04 11:01:21 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST
  • Martin Hope
    BrunoLM Guid vs INT - Qual é melhor como chave primária? 2011-01-05 23:46:34 +0800 CST
  • Martin Hope
    bernd_k Quando devo usar uma restrição exclusiva em vez de um índice exclusivo? 2011-01-05 02:32:27 +0800 CST
  • Martin Hope
    Patrick Como posso otimizar um mysqldump de um banco de dados grande? 2011-01-04 13:13:48 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve