Como altero o nome da instância no MS SQL 2005 sem instalar uma nova instância?

Question

Nelson

Asked: 2015-06-10 04:53:22 +0800 CST2015-06-10 04:53:22 +0800 CST 2015-06-10 04:53:22 +0800 CST

Registros duplicados referenciados em diferentes bancos de dados

772

Eu tenho uma tabela contendo dados de 'Pessoas' (cerca de 70 mil registros) que coexistem com uma tabela de 'Endereço', portanto, há um AddressIDpara cada pessoa na tabela 'Pessoas'.

A ideia era centralizar os dados neste único banco de dados 'População', problema começou quando começaram a aparecer registros duplicados devido a um processo de importação mal executado (dados vindos de fontes diferentes), isso deixou a tabela com até 7 registros para um Pessoa solteira.

Além disso, a tabela de endereços começou a coletar 'todos os tipos', digamos que eu moro em " 24 Wickam Heights ", você pode encontrar esse endereço das seguintes maneiras:

Wickam, 24
Rua Wickam, 24
Rua Wickam, 24
24 Whikam H.
24 Wikam Str.

Em alguns casos, tão ruim quanto mais de 20 versões diferentes da mesma rua...

A parte mais bonita é que os dados deste banco de dados estão sendo referenciados de pelo menos 5 outros bancos de dados no mesmo servidor, tornando cada alteração um processo muito arriscado.

Então, estou pensando, que medidas podem ser tomadas para se livrar das duplicatas? Que alternativas existem para evitar que a tabela de endereços acumule tanta inconsistência de dados?

Talvez até para perguntar, existe alguma salvação para uma bagunça tão grande? É realmente um pesadelo.

1 respostas

Voted

Ralph Pawne · Answer 1 · 2015-06-11T09:50:59+08:00

Existem alguns ótimos produtos de limpeza de dados por aí, um em particular que é realmente de primeira qualidade e acessível. Encontrei o DataMatch da Data Ladder , que é uma excelente ferramenta de correspondência difusa e padronização de endereço/análise de endereço usada em empresas e funcionaria muito bem para essa situação. Eles oferecem uma avaliação gratuita para novos usuários.

Na verdade, uma avaliação verificada independente foi feita do software comparando-o com as principais ferramentas de software da IBM e SAS. Houve um estudo feito no Curtin University Center for Data Linkage, na Austrália, que simulou a correspondência de 4,4 milhões de registros. Ele identificou o que os provedores tinham em termos de precisão (número de correspondências encontradas x disponíveis. Número de correspondências falsas)

1.  DataMatch Enterprise, Highest Accuracy (>95%), Very Fast, Low Cost
2.  IBM Quality Stage , high accuracy (>90%), Very Fast, High Cost (>$100K)
3.  SAS Data Flux, Medium Accuracy (>85%), Fast, High Cost (>100K)

Registros duplicados referenciados em diferentes bancos de dados

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

Registros duplicados referenciados em diferentes bancos de dados

1 respostas

relate perguntas