如何在spark sql中左移列值？

Question

telecomshy

Asked: 2024-12-28 19:51:47 +0800 CST2024-12-28 19:51:47 +0800 CST 2024-12-28 19:51:47 +0800 CST

PySpark 的 Py4J 错误：为什么一个脚本有效而另一个失败？

772

我已经在笔记本电脑上安装了 PySpark。当我运行以下程序时，一切正常：

spark = SparkSession.builder.appName('pyspark').getOrCreate()
book_local = spark.read.text("data.txt")
book_local.show()

但是，当我运行以下程序时，出现错误：

spark = SparkSession.builder.appName('pyspark').getOrCreate()

my_grocery_list = [
    ["Banana", 2, 1.74],
    ["Apple", 4, 2.04],
    ["Carrot", 1, 1.09],
    ["Cake", 1, 10.99],
]
df_grocery_list = spark.createDataFrame(my_grocery_list)
df_grocery_list.show()   # This is where the error is thrown

错误信息是：

Py4JJavaError: java.io.IOException: Cannot run program "python3"

设置环境变量后，一切恢复正常。

import os
import sys
from pyspark.sql import SparkSession

os.environ['PYSPARK_PYTHON'] = sys.executable
os.environ['PYSPARK_DRIVER_PYTHON'] = sys.executable

我的问题是，为什么第一个程序运行没有问题，但第二个程序却抛出了 Py4J 错误？第一个程序根本没有使用 Py4J 包吗？

此外，当我尝试用以下代码替换环境变量配置时：

spark = SparkSession.builder.appName('pyspark').config("spark.pyspark.python", sys.executable).getOrCreate()

我仍然遇到错误。

1 个回答

Voted

Ali Saberi · Answer 1 · 2024-12-29T03:29:40+08:00

Best Answer

Ali Saberi

2024-12-29T03:29:40+08:002024-12-29T03:29:40+08:00

两个脚本之间的行为差异是由于所执行操作的性质和 PySpark 的默认配置造成的。

第一个脚本之所以有效，是因为不需要 Python 工作进程，因为操作仅限于 JVM。

第二个脚本失败，因为它需要 Python 工作进程，而 PySpark 如果没有适当的配置就无法找到 python3 可执行文件。

为什么 .config("spark.pyspark.python", sys.executable) 不起作用？

此方法为工作进程设置 Python 可执行文件，但不会影响驱动程序进程。如果驱动程序进程本身需要 PYSPARK_PYTHON 或 PYSPARK_DRIVER_PYTHON，则除非设置了这些环境变量，否则它仍将失败。要通过 config 正确配置驱动程序和工作进程，您需要同时设置 spark.pyspark.python 和 spark.pyspark.driver.python：

spark = SparkSession.builder \
    .appName('pyspark') \
    .config("spark.pyspark.python", sys.executable) \
    .config("spark.pyspark.driver.python", sys.executable) \
    .getOrCreate()

1

PySpark 的 Py4J 错误：为什么一个脚本有效而另一个失败？

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

PySpark 的 Py4J 错误：为什么一个脚本有效而另一个失败？

1 个回答

相关问题