Eu tenho uma tabela contendo dados de 'Pessoas' (cerca de 70 mil registros) que coexistem com uma tabela de 'Endereço', portanto, há um AddressID
para cada pessoa na tabela 'Pessoas'.
A ideia era centralizar os dados neste único banco de dados 'População', problema começou quando começaram a aparecer registros duplicados devido a um processo de importação mal executado (dados vindos de fontes diferentes), isso deixou a tabela com até 7 registros para um Pessoa solteira.
Além disso, a tabela de endereços começou a coletar 'todos os tipos', digamos que eu moro em " 24 Wickam Heights ", você pode encontrar esse endereço das seguintes maneiras:
- Wickam, 24
- Rua Wickam, 24
- Rua Wickam, 24
- 24 Whikam H.
- 24 Wikam Str.
Em alguns casos, tão ruim quanto mais de 20 versões diferentes da mesma rua...
A parte mais bonita é que os dados deste banco de dados estão sendo referenciados de pelo menos 5 outros bancos de dados no mesmo servidor, tornando cada alteração um processo muito arriscado.
Então, estou pensando, que medidas podem ser tomadas para se livrar das duplicatas? Que alternativas existem para evitar que a tabela de endereços acumule tanta inconsistência de dados?
Talvez até para perguntar, existe alguma salvação para uma bagunça tão grande? É realmente um pesadelo.
Existem alguns ótimos produtos de limpeza de dados por aí, um em particular que é realmente de primeira qualidade e acessível. Encontrei o DataMatch da Data Ladder , que é uma excelente ferramenta de correspondência difusa e padronização de endereço/análise de endereço usada em empresas e funcionaria muito bem para essa situação. Eles oferecem uma avaliação gratuita para novos usuários.
Na verdade, uma avaliação verificada independente foi feita do software comparando-o com as principais ferramentas de software da IBM e SAS. Houve um estudo feito no Curtin University Center for Data Linkage, na Austrália, que simulou a correspondência de 4,4 milhões de registros. Ele identificou o que os provedores tinham em termos de precisão (número de correspondências encontradas x disponíveis. Número de correspondências falsas)