Acabei de ser perguntado se nossa empresa deveria considerar Data Virtualization
nossos ambientes de teste. Os benefícios são dados como:
- Triagem de dados confidenciais
- Atualizações rápidas de dados em nossos ambientes de teste
- Possíveis benefícios para cenários de DR e BI
No entanto, só encontrei informações de marketing; nada técnico. Pelo que pude perceber, existem 2 abordagens:
- Uma camada de serviço sobre um banco de dados de produção que o abstrai do modelo de dados (provavelmente resultando em um modelo de dados diferente apresentado por essa nova camada).
- Uma ferramenta para automatizar a restauração e posterior manipulação de dados que pode ser usada por usuários não técnicos e é mais rápida do que usar backups de banco de dados e scripts SQL.
Sem ver nenhuma informação técnica, isso me cheira a óleo de cobra; mas eu quero entendê-lo em vez de descartar de imediato.
Palavras-chave: [dados como serviço] [virtualização de dados] [virtualização de dados] [delphix] [denodo]
A virtualização de dados é o fornecimento de uma camada de abstração para que o consumidor de dados não precise saber a localização física ou o formato dos dados originais. Você pode ter um banco de dados PostGres, um banco de dados MySQL, um banco de dados SQL Server, um lote inteiro de arquivos Parquet/ORC e a pessoa que escreve a consulta não tem conhecimento dessa fisicalidade. No que diz respeito a eles, eles estão acessando uma conexão com o Presto (ou qualquer solução de virtualização de dados que você escolheu usar).
Tecnologias como o Apache Presto permitem um ponto central no qual executar consultas SQL, mas o próprio Presto é configurado para saber onde e quais são os dados de origem, o usuário final não precisa saber. O Presto é uma ferramenta de código aberto que recebeu muitas contribuições da Teradata, principalmente no que diz respeito à conectividade JDBC, segurança e autenticação LDAP. Ele também tem suporte comercial da StarBurst. A Starburst anunciou recentemente um otimizador de consulta baseado em custo para o Presto.
A AWS acredita no Presto porque baseou o AWS Athena nele. A beleza disso é que os dados não precisam residir em um banco de dados relacional. Também pode ser baseado em arquivo.
Em termos de triagem de dados confidenciais, você pode escolher quem tem acesso a quê, mas não é uma ferramenta de mascaramento ou ofuscação de dados.
Não é óleo de cobra, mas também não é uma bala de prata. Obviamente, há um hit nos sistemas de origem e você precisa entender o que é esse hit. O principal benefício é que você não precisa deslocar os dados para todos os lugares e tem uma grande variedade de tecnologias para dar suporte a essa movimentação de dados.