Suponha que eu tenha uma tabela "principal" que provavelmente foi fortemente normalizada e consiste em grande parte de colunas que apenas contêm códigos que são pesquisas em outras tabelas (provavelmente são chaves estrangeiras, mas sinta-se à vontade para não assumir isso em sua resposta, se fizer sentido). Por exemplo, talvez esta tabela principal seja uma lista de pessoas e uma das colunas seja para favorite_color
. Claro que então nossa tabela de pesquisa ficaria mais ou menos assim:
color_cd color_name
0 Unknown
1 Red
2 Blue
3 Orange
4 Other
Agora, se estou criando relatórios a partir desta tabela principal ou talvez alimentando esses dados em algum software para especialistas de domínio usarem, prefiro substituir o favorite_color
código pelo color_name
da tabela de pesquisa. Uma solução, claro, é fazer isso com um simples JOIN no meu SELECT:
SELECT main.col1, main.col2, colors.color_name as `Favorite Color`
FROM main LEFT OUTER JOIN colors ON (main.favorite_color = colors.color_cd);
Isso faz o trabalho. Agora suponha que a tabela principal tenha dezenas ou talvez centenas dessas colunas e milhões de linhas. Algumas das tabelas de pesquisa são pequenas, como no exemplo acima, mas outras podem ter centenas ou milhares de valores.
Existe algum tipo de maneira padrão de fazer essa transformação ou a escrita é longa com dezenas ou centenas de junções? Esse tipo de coisa é um componente típico de qualquer produto ETL? É preferível escrever um script que lide com isso sem junções e fora do SQL? Por favor, perdoe o que são prováveis alguns abusos ou mau uso da terminologia; Eu nem tenho certeza se o processo acima tem um nome.
No processo ETL, você pode substituir os códigos por nomes ao carregar uma tabela de destino. Vou me concentrar no Informatica PowerCenter, mas tenho certeza de que outras ferramentas ETL oferecem um recurso semelhante.
Há uma
Lookup
transformação que é usada para procurar valores (DNAME
) de uma tabela relacional (também pode ser uma exibição ou um arquivo simples), com base em critérios de correspondência de pesquisa definidos (source.DEPTNO = lookup.DEPTNO
). Esses valores podem ser anexados às linhas de origem e armazenados em uma tabela de destino (que é usada para relatórios).Quando uma sessão é executada, uma
SELECT
instrução é gerada para cada pesquisa no mapeamento. Essas instruções são executadas na fonte de dados uma vez e os resultados são armazenados no cache de pesquisa. Posteriormente, quando um valor precisar ser consultado, a transformação usará o cache.