在 SPARK SQL 中逆透视列组

Question

Dhruv

Asked: 2024-02-29 17:58:26 +0800 CST2024-02-29 17:58:26 +0800 CST 2024-02-29 17:58:26 +0800 CST

Spark中列名后面的#<number>是什么

772

我没有任何特定的目的去了解这些奇怪名字的含义，我只是对此感兴趣。

这是一个简单的代码。

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()

df1 = spark.createDataFrame([['a', 'b'], ['c', 'd']], 'c1: string, c2: string')
df2 = spark.createDataFrame([['a', 'p'], ['c', 'q']], 'c1: string, c3: string')
df1.join(df2, df1.c1 == df2.c1).explain()

它输出

== Physical Plan ==
AdaptiveSparkPlan isFinalPlan=false
+- SortMergeJoin [c1#0], [c1#4], Inner
   :- Sort [c1#0 ASC NULLS FIRST], false, 0
   :  +- Exchange hashpartitioning(c1#0, 200), ENSURE_REQUIREMENTS, [plan_id=191]
   :     +- Filter isnotnull(c1#0)
   :        +- Scan ExistingRDD[c1#0,c2#1]
   +- Sort [c1#4 ASC NULLS FIRST], false, 0
      +- Exchange hashpartitioning(c1#4, 200), ENSURE_REQUIREMENTS, [plan_id=192]
         +- Filter isnotnull(c1#4)
            +- Scan ExistingRDD[c1#4,c3#5]

列名称后跟诸如c1#0和之类的数字c2#1。这些数字是多少？我能理解的一件事是它们有助于区分不同数据帧中具有相同名称的列，例如c1#0和c1#4。

任何帮助表示赞赏。

1 个回答

Voted

s.polam · Answer 1 · 2024-02-29T23:06:57+08:00

Best Answer

s.polam

2024-02-29T23:06:57+08:002024-02-29T23:06:57+08:00

这将在课堂上用于import org.apache.spark.sql.catalyst.expressions.AttributeReference每一列DataFrame

1

Spark中列名后面的#<number>是什么

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

Spark中列名后面的#<number>是什么

1 个回答

相关问题