我们遇到了极其缓慢的 Databricks SQL 查询。我发现一个网站提供了许多 Spark SQL 优化调优技术
https://www.linkedin.com/pulse/spark-sql-performance-tuning-configurations-vignesan-saravanan-8hamc/
链接中描述的许多建议表明这些特性/功能已默认启用。例如,默认情况下启用 Spark 基于成本的优化器。但是,它还提到,如果未启用它,您可以通过运行以下命令来启用它:
spark.conf.set("spark.sql.cbo.enabled", true)
我的问题是
- 如何确定该特性/功能已启用
- 该特性/功能是否适用于 Databricks SQL 笔记本而不是 Databricks Python 笔记本?
1-您可以通过调用 get 方法来测试某个功能是否启用。Spark.conf.getAll,(spark.sql.cbo.enabled 在我的运行时中不存在)。
2- 是的,可以在 sql 笔记本中激活此功能,您可以创建一个 python 块,激活该选项并在笔记本的其余部分使用 sql,您还可以在创建集群时在 Spark 配置中激活此功能(在高级选项中)。