我最近才尝试使用 SQL Server 2016。因此,如果我的假设不正确,请纠正我:从对SQL Server R Services
的
一些研究中,我发现RxHDFSConnect和RxHDFSFileSystem函数有助于将数据从 Hadoop 直接加载到 SQL Server 2016 数据库中。
- 如果没有与 Hadoop 的Polybase连接,这些功能仍然可以工作吗?
- 如果是,为什么要使用 Polybase 连接?
我最近才尝试使用 SQL Server 2016。因此,如果我的假设不正确,请纠正我:从对SQL Server R Services
的
一些研究中,我发现RxHDFSConnect和RxHDFSFileSystem函数有助于将数据从 Hadoop 直接加载到 SQL Server 2016 数据库中。
https://azure.microsoft.com/en-gb/documentation/articles/sql-data-warehouse-overview-load/
我认为 SQL Server 2016 不存在相同的建议,但它仍然有意义。这两个选项略有不同,因为 Polybase 允许您直接访问 Hadoop 或 Azure Blob 存储,并且针对规模进行了优化,例如PolyBase scale-out groups。您编写普通的 T-SQL 来访问这些外部表,这是主要优势之一——您无需进行 Map Reduce 作业!在 SQL Server 2016 中使用 R,您必须使用存储过程
sp_execute_external_script
来调用这些库、创建连接并将数据导入数据框。然后,您必须将数据框作为输出结果集公开回 SQL Server,然后将其写入表,例如...就步骤数而言,感觉更复杂。我还没有对此进行任何规模测试,但直觉告诉我这不适合大量使用。有趣的是,我只能在 googlecache 中找到有关使用 RevoScaelR 导入数据的页面。
出于兴趣,您正在寻找什么样的用例?