Eu só experimentei o SQL Server 2016 recentemente. Portanto, corrija-me se minhas suposições estiverem incorretas:
De algumas pesquisas sobre SQL Server R Services , vejo que as funções RxHDFSConnect e RxHDFSFileSystem ajudam a carregar dados do Hadoop diretamente em um banco de dados SQL Server 2016.
- Essas funções ainda podem funcionar sem uma conexão do Polybase com o Hadoop?
- Se sim, por que usar a conexão Polybase?
https://azure.microsoft.com/en-gb/documentation/articles/sql-data-warehouse-overview-load/
Não acho que exista a mesma recomendação para o SQL Server 2016, mas ainda faz sentido. As duas opções são um pouco diferentes, pois o Polybase permite que você acesse o Hadoop ou o armazenamento de Blob do Azure diretamente e foi otimizado para escala, por exemplo, grupos de expansão do PolyBase . Você escreve T-SQL comum para acessar essas tabelas externas, o que é uma das principais vantagens - sem tarefas de redução de mapa para você! Usando R no SQL Server 2016, você teria que usar o procedimento armazenado
sp_execute_external_script
para chamar essas bibliotecas, criar a conexão e importar os dados para um dataframe. Você teria que expor o dataframe de volta ao SQL Server como um conjunto de resultados de saída e gravá-lo em uma tabela, algo como ...Apenas em termos de número de etapas, parece mais complicado. Eu não fiz nenhum teste de escala nisso, mas o instinto me diz que isso não é feito para grandes volumes. Curiosamente, só consegui encontrar esta página sobre importação de dados com RevoScaelR no googlecache.
Que tipo de casos de uso você está procurando, apenas por interesse?