我正在使用 Databricks Academy 进行学习。Databricks 附带存储在 adl 中的数据,可用于培训。
但是数据似乎无法访问。我们收到以下错误:
com.microsoft.azure.datalake.store.ADLException:获取文件 /dbacademy/people10m.parquet 的信息时出错
数据的位置是:
people10m = spark.read.parquet("adl://devszendsadlsrdpacqncd.azuredatalakestore.net/dbacademy/people10m.parquet")
有人能解释一下为什么我们无法访问数据吗
为了更清楚地解释这个问题,以下链接展示了一个关于学习聚合、JOIN 和嵌套查询的 Databricks 笔记本。为了使用笔记本进行学习,需要使用以下代码运行以下课堂设置:%run"./Includes/Classroom-Setup"
这将在名为“Classroom-Setup”的笔记本中执行以下代码
people10m = spark.read.parquet("adl://devszendsadlsrdpacqncd.azuredatalakestore.net/dbacademy/people10m.parquet")
但是,当笔记本运行代码时,我收到以下错误:
com.microsoft.azure.datalake.store.ADLException: Error getting info for file /dbacademy/people10m.parquet
因此,有人可以让我知道为什么我会收到错误,并提供解决方法
根据您分享的代码,我可以看到您正在尝试从 Azure Data Lake Storage Gen 1(ADLS Gen1)读取数据,但 Azure 现在不支持此服务。
您将无法访问来自 ADLS gen1 的数据 首先,您需要将数据从 ADLS Gen1 迁移到 ADLS Gen 2。您可以参考此MS 文档以获取有关迁移的更多信息。
将数据迁移到 ADLS Gen2 后,您可以使用以下代码从 Azure Databricks 访问它: