Tenho revisado os fluxos de trabalho do Databricks. Li muitos blogs sobre os fluxos de trabalho do Databricks, mas não consigo encontrar nenhuma revisão comparando os fluxos de trabalho ao Azure Data Factory. Pode ser que os dois serviços sejam completamente diferentes, mas penso que os fluxos de trabalho estão posicionados para fazer o trabalho do ADF.
Alguém pode me informar se, por exemplo, os Workflows têm o mesmo número de conectores que o ADF? É possível conectar-se a um SQL Server local similar à maneira como você pode se conectar a um SQL Server/banco de dados local com o agente Self-Hosted Runtime do ADF?
Os fluxos de trabalho do Azure Data Factory (ADF) e do Databricks atendem a propósitos diferentes e têm recursos diferentes.
Azure Data Factory: O Azure Data Factory é usado principalmente para integração, migração e orquestração de dados, fornecendo uma plataforma para conectar, ingerir e preparar dados de várias fontes.
Databricks Workflows: Os Databricks Workflows fornecem uma solução de orquestração totalmente gerenciada que é perfeitamente integrada à plataforma Databricks. É acessível por meio de várias interfaces, incluindo a IU de Workflows, APIs poderosas e a CLI do Databricks. Isso permite que os usuários projetem, executem, monitorem e solucionem problemas de pipelines de dados sem o fardo de gerenciar a infraestrutura. Com recursos de monitoramento integrados, como visualizações de tabela e matriz de execuções de fluxo de trabalho, ele permite a rápida identificação e resolução de problemas.
Os fluxos de trabalho do Databricks são perfeitos para gerenciar as partes de transformação e processamento do seu pipeline de dados, especialmente quando todo o trabalho pesado acontece dentro do Databricks. Se seus dados já estiverem armazenados no Azure Data Lake (ADLS), você poderá facilmente lê-los, processá-los e gravá-los de volta sem precisar de uma ferramenta de orquestração externa.
Você também pode usar fluxos de trabalho para extrair dados de fontes de nuvem, APIs da web ou outras plataformas compatíveis com o Databricks, o que o torna uma opção flexível para lidar com pipelines de dados.
Como você mencionou
Se você precisar extrair dados de fontes locais que exigem um tempo de execução de integração auto-hospedado ou de fontes de dados que os conectores JDBC do Databricks não manipulam com eficiência, é melhor usar uma ferramenta ETL dedicada, como o Azure Data Factory, para o trabalho.
Referência: Orquestração - Databricks Workflow VS Azure Data Factory Databricks Workflow: Um serviço de orquestração totalmente gerenciado para Lakehouse