Qual ferramenta de criação de perfil de dados recomendada para recuperar muitas informações e permitir visualizar os dados em estatísticas gráficas? Os dados vêm do banco de dados de origem.
Qual ferramenta de criação de perfil de dados recomendada para recuperar muitas informações e permitir visualizar os dados em estatísticas gráficas? Os dados vêm do banco de dados de origem.
Suas perguntas são bastante amplas, por isso é difícil responder definitivamente. No entanto, darei uma visão geral do campo.
A criação de perfil de dados é o processo de análise de dados para entender a semântica dos dados e identificar problemas de qualidade de dados que podem precisar ser resolvidos. Coisas que o perfil de dados abordará incluem:
Significados de várias tabelas de dados de referência ou esquemas de codificação nos dados. Isso quase sempre será necessário para entender qual lógica de negócios será necessária para implementar cálculos no processamento de ETL.
Conteúdo de vários itens de dados na origem. Isso pode não estar suficientemente bem documentado para que a localização ou origem seja imediatamente óbvia.
Cardinalidade e relacionamentos dos dados. Em alguns casos, as chaves estrangeiras podem não estar presentes no sistema ou não ser um recurso da fonte de dados (por exemplo, arquivos ISAM/VSAM de sistemas de mainframe mais antigos).
Problemas de dados em que os dados estão incorretos e precisam ser corrigidos na fonte.
Processos de reconciliação em que os resultados da prototipagem, processamento de ETL ou outro trabalho precisam ser reconciliados com a fonte de dados ou algum outro controle.
Freqüentemente, os dados podem ser perfilados apenas examinando-os com uma ferramenta de consulta de banco de dados, como o SSMS, e escrevendo consultas SQL diretamente na fonte ou uma cópia dos dados carregados em uma área de preparação ou rascunho. Ferramentas de desktop como planilhas (tabelas dinâmicas podem ser úteis) ou sistemas de banco de dados como o MS-Access também podem ser úteis.
Ferramentas de criação de perfil de dados específicas, como Pandora X88, também estão disponíveis, mas tendem a ser relativamente caras. Freqüentemente, eles são difíceis de vender, mesmo em projetos corporativos maiores, nos quais representam uma pequena fração do orçamento geral.
Freqüentemente, sua melhor abordagem é simplesmente copiar todos os seus dados de origem em um banco de dados de preparação e examiná-lo. Este trabalho também pode formar a base de seus processos de escalonamento mais tarde.