Estou usando a Databricks Academy para aprender. A Databricks vem com dados armazenados em ADL para serem usados com o treinamento.
No entanto, os dados não parecem estar acessíveis. Estamos recebendo o erro:
com.microsoft.azure.datalake.store.ADLException: Erro ao obter informações do arquivo /dbacademy/people10m.parquet
A localização dos dados é:
people10m = spark.read.parquet("adl://devszendsadlsrdpacqncd.azuredatalakestore.net/dbacademy/people10m.parquet")
Alguém pode explicar por que não conseguimos acessar os dados
Apenas para adicionar alguma clareza a esta questão, o link a seguir mostra um notebook do Databricks sobre aprendizado de Agregações, JOINs e Consultas Aninhadas. Para aprender com o notebook, há um requisito para executar a seguinte configuração de sala de aula com o seguinte código: %run"./Includes/Classroom-Setup"
Isso executará o seguinte código em um notebook chamado "Classroom-Setup"
people10m = spark.read.parquet("adl://devszendsadlsrdpacqncd.azuredatalakestore.net/dbacademy/people10m.parquet")
Entretanto, quando o notebook executa o código, recebo o seguinte erro:
com.microsoft.azure.datalake.store.ADLException: Error getting info for file /dbacademy/people10m.parquet
Portanto, alguém pode me informar por que estou recebendo o erro e fornecer uma solução alternativa
De acordo com o código que você compartilhou, posso ver que você está tentando ler dados do Azure Data Lake Storage Gen 1 (ADLS Gen1), mas esse serviço não é mais suportado no Azure.
Você não poderá acessar dados do ADLS Gen1. Primeiro, você precisa migrar dados do ADLS Gen1 para o ADLS Gen 2. Você pode consultar este documento da MS para obter mais informações sobre migração.
Após migrar os dados para o ADLS Gen2, você pode acessá-los do Azure Databricks com o código abaixo: