Eu sei que essas letras significam Extrair, Transformar e Carregar.
Mas, quando o usei no início, pensei que durante a fase Transform eu poderia fazer muitas junções diferentes nos dados que extraí de fontes de dados, mais tarde percebi que fazer uma junção em um ETL diferente não é tão útil .
- Então, o que fazemos na fase Transform?
- Calcule e emita o resultado ?
- Transformação de string?
- As fontes de dados de entrada devem ser apenas csv, xml ou arquivo simples?
- Se as junções não forem tão úteis, devemos fazer apenas a transformação de alto nível dentro de um ETL?
obrigada
Extract Transform and Load é a preparação de dados estrangeiros para serem inseridos em seu banco de dados ou data warehouse
Observando os fundamentos do ETL, o designer de data warehouse Bill Inmon observa :
A partir daqui, uma infinidade de produtos ETL proliferou, como Inmon descreve em sua breve história de produtos ETL . Eles eram populares porque eram ferramentas de software projetadas para extrair dados de sistemas em mudança , transformá-los de acordo com regras específicas e carregá-los em data warehouses. Esse processo de software significava que os humanos estavam envolvidos apenas no elemento crítico do loop: desvendar erros de dados carregados. Ao automatizar ao máximo possível, o processo ETL forneceu às empresas uma maneira perfeita de não apenas carregar seus bancos de dados atuais em um data warehouse, mas também a capacidade de carregar conjuntos de dados futuros dos mesmos bancos de dados, para que o data warehouse possa fornecer continuamente resultados futuros.
Para responder especificamente à sua pergunta, diferentes bancos de dados fornecem diferentes extratos. As transformações são aplicadas para normalizar os dados. A normalização é tanto no sentido específico do banco de dados, alterando os padrões dos dados para corresponder ao data warehouse receptor, quanto no sentido humano, garantindo que os mesmos dados em sistemas diferentes pareçam iguais para o sistema de entrada.
As fontes de dados podem ser qualquer coisa para a qual você possa codificar uma transformação, já que a finalidade da transformação é aplicar regras aos dados recebidos de forma que se ajustem ao seu modelo de dados. A junção de conjuntos de dados diferentes só deve ser realizada se necessário. Confie em seu banco de dados de destinatários para sincronizar os resultados.
Aqui estão alguns usos:
Além do que foi mencionado, uma grande parte da minha "Transformação" é feita fazendo a conversão de unidades, já que a maioria dos meus bancos de dados rastreia dados científicos provenientes de diferentes fontes. Então, quando eu "normalizo" os dados, é o que nosso campo chama de "harmonização de dados" (colocar coisas em escalas/quadros de referência semelhantes para que possam ser comparados diretamente), não necessariamente "normalização de banco de dados", embora eu possa ter que fazer alguns extras massageando para obter os dados organizados em torno de diferentes conceitos para caber em nosso sistema.
Meus problemas comuns são: