我刚刚被问到我们公司是否应该考虑Data Virtualization
我们的测试环境。好处如下:
- 敏感数据筛选
- 在我们的测试环境中快速刷新数据
- DR 和 BI 场景的潜在好处
但是我只找到了营销信息;没什么技术。据我所知,有两种方法:
- 生产数据库上的服务层将您从数据模型中抽象出来(可能会导致该新层呈现不同的数据模型)。
- 一种自动化数据恢复和后续操作的工具,可供非技术用户使用,并且比使用数据库备份和 SQL 脚本更快。
在没有看到任何技术信息的情况下,这对我来说是蛇油的味道;但我想理解它而不是一发不可收拾。
关键字:[数据即服务] [数据虚拟化] [数据虚拟化] [delphix] [denodo]
数据虚拟化是提供一个抽象层,因此数据消费者不必知道原始数据的物理位置或格式。您可能有一个 PostGres 数据库、一个 MySQL 数据库、一个 SQL Server 数据库、一整批 Parquet/ORC 文件,而编写查询的人完全没有意识到这种物理性。就他们而言,他们正在建立与 Presto 的连接(或您选择使用的任何数据虚拟化解决方案)。
Apache Presto 等技术允许一个中心点运行 SQL 查询,但 Presto 本身被配置为知道源数据的位置和内容,最终用户不需要知道。Presto 是一种开源工具,它从 Teradata 获得了大量输入,尤其是在 JDBC 连接、安全性和 LDAP 身份验证方面。它还得到了 StarBurst 的商业支持。Starburst 最近宣布了一个基于成本的 Presto 查询优化器。
AWS 对 Presto 有信心,因为他们在其上建立了 AWS Athena。它的美妙之处在于数据不必驻留在关系数据库中。它也可以基于文件。
在筛选敏感数据方面,您可以选择谁有权访问什么,但它不是数据屏蔽或混淆工具。
它不是蛇油,但也不是灵丹妙药。很明显,源系统受到了攻击,您必须了解该攻击是什么。关键的好处是您不必到处移动数据,并且拥有大量的技术来支持该数据移动。