Esta questão foi inspirada por esta [fechada] e é praticamente idêntica a esta , mas usando RDBMSs diferentes (PostgreSQL vs. MySQL).
Suponha que eu tenha uma lista de tumores (esses dados são simulados a partir de dados reais):
CREATE table illness (nature_of_illness VARCHAR(25), created_at DATETIME);
INSERT INTO illness VALUES ('Cervix', '2018-01-03 15:45:40');
INSERT INTO illness VALUES ('Cervix', '2018-01-03 15:45:40');
INSERT INTO illness VALUES ('Cervix', '2018-01-03 15:45:40');
INSERT INTO illness VALUES ('Cervix', '2018-01-03 15:45:40');
INSERT INTO illness VALUES ('Cervix', '2018-01-03 15:45:40');
INSERT INTO illness VALUES ('Lung', '2018-01-03 17:50:32');
INSERT INTO illness VALUES ('Lung', '2018-02-03 17:50:32');
INSERT INTO illness VALUES ('Lung', '2018-02-03 17:50:32');
INSERT INTO illness VALUES ('Lung', '2018-02-03 17:50:32');
INSERT INTO illness VALUES ('Cervix', '2018-02-03 17:50:32');
-- 2017, with 1 Cervix and Lung each for the month of Jan - tie!
INSERT INTO illness VALUES ('Cervix', '2017-01-03 15:45:40');
INSERT INTO illness VALUES ('Lung', '2017-01-03 17:50:32');
INSERT INTO illness VALUES ('Lung', '2017-02-03 17:50:32');
INSERT INTO illness VALUES ('Lung', '2017-02-03 17:50:32');
INSERT INTO illness VALUES ('Lung', '2017-02-03 17:50:32');
INSERT INTO illness VALUES ('Cervix', '2017-02-03 17:50:32');
Você quer descobrir qual tumor em particular foi mais comum em um determinado mês - até agora tudo bem!
Agora, você notará que para o mês 1 de 2017, há um empate - então não faz sentido escolher um aleatoriamente e dar isso como resposta - então os empates devem ser incluídos - isso torna o problema muito mais desafiador.
A resposta correta é:
Year Month Tumour count Type
2017 1 1 Cervix -- note tie
2017 1 1 Lung -- " "
2017 2 3 Lung
2018 1 5 Cervix
2018 2 3 Lung
Um bônus adicional seria ter o nome do mês aparecendo como texto em vez de um número inteiro.
Eu tenho uma solução, mas é bastante complexa - gostaria de saber se minha solução é ótima ou não. O violino MySQL está aqui !
Minha tentativa de resolver isso é a seguinte. Agradeceria qualquer conselho sobre como esta consulta poderia ser melhorada:
E dá o resultado correto, como pode ser visto no violino aqui !
Usando MySQL-8.0 e CTEs, primeiro criamos
tmp
como o agrupamento de contagem agregada por ano/mês/nature_of_illness
,RANK()
atribui valores idênticos aoc
mesmo valor para que o máximo duplicado seja contabilizado: