在 SPARK SQL 中逆透视列组

Question

ng.newbie

Asked: 2024-08-14 22:13:18 +0800 CST2024-08-14 22:13:18 +0800 CST 2024-08-14 22:13:18 +0800 CST

如何在 PySpark 应用程序中访问用户内存？

772

如何访问 PySpark 应用程序中预留的用户内存？

我猜测这在 PySpark 应用程序中是不可能的，因为这是 JVM 内存的一部分，无法通过 Python 访问。

如果我是正确的，那么在 PySpark 应用程序中不需要为此留出任何内存（因为它不可访问）？

1 个回答

Voted

mazaneicha · Answer 1 · 2024-08-14T22:57:15+08:00

恐怕这并不完全正确。pyspark 通过 py4j 模块与 JVM 的内存进行交互，您也可以通过 java 网关访问该内存。

例如，让我们检查 Spark JVM 的类路径（这些都是有可能加载到“用户内存”中的 Java 类）：

$ pyspark
Python 3.11.2 (main, Feb 17 2023, 09:28:16) [GCC 8.5.0 20210514 (Red Hat 8.5.0-18)] on linux
Type "help", "copyright", "credits" or "license" for more information.
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 3.4.0.
      /_/

Using Python version 3.11.2 (main, Feb 17 2023 09:28:16)
Spark context Web UI available at http://xxx.xxx.xxx:4040
Spark context available as 'sc' (master = yarn, app id = application_9999999999999_9999).
SparkSession available as 'spark'.
>>> 
>>> cp = spark._jvm.System.getProperty("java.class.path")
>>> for jar in sorted(cp.split(":")): print(jar)
...
/etc/hive/conf/
/opt/spark340/lib/hadoop/client/avro.jar
/opt/spark340/lib/hadoop/client/aws-java-sdk-bundle-1.12.599.jar
/opt/spark340/lib/hadoop/client/aws-java-sdk-bundle.jar
/opt/spark340/lib/hadoop/client/azure-data-lake-store-sdk-2.3.6.jar
/opt/spark340/lib/hadoop/client/azure-data-lake-store-sdk.jar
/opt/spark340/lib/hadoop/client/checker-qual-2.8.1.jar
:
:

补充一点——您的图表（如果有源代码链接就更好了！）既不准确也不完整。Spark 从 2.0 版开始使用统一内存模型，因此没有执行与存储内存（相应的配置设置在 3.0 版中已弃用并删除）。在 pyspark 中还有一个专门为 python 分配内存的选项。有关配置设置的完整列表，请查看https://spark.apache.org/docs/latest/configuration.html#application-properties

如何在 PySpark 应用程序中访问用户内存？

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

如何在 PySpark 应用程序中访问用户内存？

1 个回答

相关问题