Existem ferramentas de benchmarking do MySQL? [fechado]

Question

Lucas Kauffman

Asked: 2012-02-20 03:56:14 +0800 CST2012-02-20 03:56:14 +0800 CST 2012-02-20 03:56:14 +0800 CST

Precisa encontrar entradas duplicadas

772

Recebi um banco de dados com alguns milhões de registros, mas aparentemente pode haver registros duplicados neles.

Um usuário insere dados no banco de dados e uma chave primária é gerada, no entanto, se o usuário inserir os mesmos dados novamente, uma nova chave primária será gerada para esses dados, mesmo que os dados já tenham sido inseridos antes. Não há verificações sobre isso.

Preciso procurar essas duplicatas, mas realmente não sei por onde começar. Primeiro pensei em concatenar todas as células, exceto a chave primária em uma subconsulta e depois contar essas linhas e ver quais têm uma contagem maior que 1.

cf.

pkey    recipe     fkey    comment
1   toast       3       tasty
2   curry       2       spicy
3   curry       2       spicy
4   bread       1           crumbly
5   orios       2       cookies

Aqui as entradas de curry são idênticas e eu teria que deletar 1 delas.

No entanto, eu li que a concatenação é imprevisível no mysql e também parece um pouco errado para mim.

Alguma dica?

1 respostas

Voted

RolandoMySQLDBA · Answer 1 · 2012-02-21T16:54:57+08:00

Suponha que sua tabela seja chamada ingredients. Tente o seguinte:

Etapa 01) Crie uma tabela de chaves de exclusão vazia chamadaingredients_delete_keys

CREATE TABLE ingredients_delete_keys
SELECT fk,recipe,pkey FROM ingredients WHERE 1=2;

Passo 02) Crie PRIMARY KEY noingredients_delete_keys

ALTER TABLE ingredients_delete_keys ADD PRIMARY KEY (fk,recipe,pkey);

Passo 03) Indexe a ingredientstabela com fk,recipe,pkey

ALTER TABLE ingredients ADD INDEX fk_recipe_pkey_ndx (fk,recipe,pkey);

Passo 04) Preencher a ingredients_delete_keystabela

INSERT INTO ingredients_delete_keys
SELECT fk,recipe,MIN(pkey)
FROM ingredients GROUP BY fk,recipe;

Passo 05) Realize um DELETE JOIN na tabela de ingredientes usando chaves que não coincidam

DELETE B.*
FROM ingredients_delete_keys A
LEFT JOIN ingredients B
USING (fk,recipe,pkey)
WHERE B.pkey IS NULL;

Passo 06) Solte as teclas delete

DROP TABLE ingredients_delete_keys;

Passo 07) Livre-se do fk_recipe_pkey_ndxíndice

ALTER TABLE ingredients DROP INDEX fk_recipe_pkey_ndx;

OK Aqui estão todas as linhas em um bloco...

CREATE TABLE ingredients_delete_keys
SELECT fk,recipe,pkey FROM ingredients WHERE 1=2;
ALTER TABLE ingredients_delete_keys ADD PRIMARY KEY (fk,recipe,pkey);
ALTER TABLE ingredients ADD INDEX fk_recipe_pkey_ndx (fk,recipe,pkey);
INSERT INTO ingredients_delete_keys
SELECT fk,recipe,MIN(pkey)
FROM ingredients GROUP BY fk,recipe;
DELETE B.*
FROM ingredients_delete_keys A
LEFT JOIN ingredients B
USING (fk,recipe,pkey)
WHERE B.pkey IS NULL;
DROP TABLE ingredients_delete_keys;
ALTER TABLE ingredients DROP INDEX fk_recipe_pkey_ndx;

De uma chance !!!

EMBARGO

Observe que usar a função MIN ajuda a manter a primeira pkey inserida para fk. Se você alternar para a função MAX, a última pkey inserida para fk é mantida.

Precisa encontrar entradas duplicadas

Como ver a lista de bancos de dados no Oracle?

Quão grande deve ser o mysql innodb_buffer_pool_size?

Listar todas as colunas de uma tabela especificada

restaurar a tabela do arquivo .frm e .ibd?

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Como selecionar a primeira linha de cada grupo?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

Precisa encontrar entradas duplicadas

1 respostas

relate perguntas