AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / coding / 问题 / 76985824
Accepted
sara ali khan
sara ali khan
Asked: 2023-08-27 13:30:29 +0800 CST2023-08-27 13:30:29 +0800 CST 2023-08-27 13:30:29 +0800 CST

pyspark 发生年份的最大值

  • 772

代码:

# Rename the columns after pivoting
new_column_names = ["Year"] + [col_name.replace(" ", "_") for col_name in pivot_table.columns[1:]]
pivot_table = pivot_table.toDF(*new_column_names)

# Task 4: Calculate percentage change
percentage_cols = pivot_table.columns[1:]  # Exclude the "Year" column
window_spec = Window.orderBy("Year")
print(pivot_table.columns)
pivot_table  = pivot_table.drop('Other_purchases_and_operating_expenses')

# Calculate percentage change using a loop
for col_name in percentage_cols:
    pivot_table = pivot_table.withColumn(f"{col_name}_lag", lag(col(col_name)).over(window_spec))
    pivot_table = pivot_table.withColumn(f"{col_name}_change", (col(col_name) - col(f"{col_name}_lag")) / col(f"{col_name}_lag") * 100)
    pivot_table = pivot_table.drop(f"{col_name}_lag")
    pivot_table = pivot_table.drop(f"{col_name}")

代码的输出是

year column ,variablenames column 3

我想要每列的最大百分比变化以及它发生在数据框中的时间

dataframe
  • 1 1 个回答
  • 26 Views

1 个回答

  • Voted
  1. Best Answer
    Akhaya Chandan Mishra
    2023-08-27T15:30:38+08:002023-08-27T15:30:38+08:00

    根据您的要求和问题创建了一个示例数据框

    from pyspark.sql import *
    from pyspark.sql.window import *
    from pyspark.sql.functions import *
    
    # Initialize Spark session
    spark = SparkSession.builder.appName("PercentageChangeCalculation").getOrCreate()
    
    # Sample data
    data = [
        ("2020", 100, 120, 80),
        ("2021", 130, 150, 110),
        ("2022", 260, 180, 140)
    ]
    
    columns = ["Year", "Sales", "Expenses", "Profit"]
    
    # Create DataFrame
    df = spark.createDataFrame(data, columns)
    
    # Pivot the DataFrame (assuming you've already pivoted the data)
    pivot_table = df
    
    # Rename columns
    new_column_names = ["Year"] + [col_name.replace(" ", "_") for col_name in pivot_table.columns[1:]]
    pivot_table = pivot_table.toDF(*new_column_names)
    
    # Task 4: Calculate percentage change
    percentage_cols = pivot_table.columns[1:]  # Exclude the "Year" column
    window_spec = Window.orderBy("Year")
    
    pivot_table = pivot_table.drop("Other_purchases_and_operating_expenses")
    
    # Calculate percentage change using a loop
    for col_name in percentage_cols:
        pivot_table = pivot_table.withColumn(f"{col_name}_lag", lag(col(col_name)).over(window_spec))
        pivot_table = pivot_table.withColumn(f"{col_name}_change", (col(col_name) - col(f"{col_name}_lag")) / col(f"{col_name}_lag") * 100)
        pivot_table = pivot_table.drop(f"{col_name}_lag")
        pivot_table = pivot_table.drop(f"{col_name}")
    
    pivot_table.show()

    输出:-

    +----+------------+---------------+-----------------+
    |Year|Sales_change|Expenses_change|    Profit_change|
    +----+------------+---------------+-----------------+
    |2020|        null|           null|             null|
    |2021|        30.0|           25.0|             37.5|
    |2022|       100.0|           20.0|27.27272727272727|
    +----+------------+---------------+-----------------+
    

    要获取每列的最大百分比变化以及数据框中发生的时间,请使用此

    percentage_cols = pivot_table.columns[1:]  
    result_data = []
    
    for column_name in percentage_cols:
        max_value_row = pivot_table.select(column_name, "Year").orderBy(col(column_name).desc()).first()
        max_value = max_value_row[column_name]
        max_name = max_value_row["Year"]
        # print(max_value_row)
        result_data.append(Row(column_name=column_name, max_value=max_value, occored_in=max_name))
    
        # print(column_name,max_value,max_name)
    result_df = spark.createDataFrame(result_data)
    result_df.show()
    

    输出

    +---------------+---------+----------+
    |    column_name|max_value|occored_in|
    +---------------+---------+----------+
    |   Sales_change|    100.0|      2022|
    |Expenses_change|     25.0|      2021|
    |  Profit_change|     37.5|      2021|
    +---------------+---------+----------+
    
    • 0

相关问题

  • 如何在scala中使用空安全运算符?

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    使用 <font color="#xxx"> 突出显示 html 中的代码

    • 2 个回答
  • Marko Smith

    为什么在传递 {} 时重载解析更喜欢 std::nullptr_t 而不是类?

    • 1 个回答
  • Marko Smith

    您可以使用花括号初始化列表作为(默认)模板参数吗?

    • 2 个回答
  • Marko Smith

    为什么列表推导式在内部创建一个函数?

    • 1 个回答
  • Marko Smith

    我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

    • 1 个回答
  • Marko Smith

    java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

    • 3 个回答
  • Marko Smith

    为什么 'char -> int' 是提升,而 'char -> Short' 是转换(但不是提升)?

    • 4 个回答
  • Marko Smith

    为什么库中不调用全局变量的构造函数?

    • 1 个回答
  • Marko Smith

    std::common_reference_with 在元组上的行为不一致。哪个是对的?

    • 1 个回答
  • Marko Smith

    C++17 中 std::byte 只能按位运算?

    • 1 个回答
  • Martin Hope
    fbrereto 为什么在传递 {} 时重载解析更喜欢 std::nullptr_t 而不是类? 2023-12-21 00:31:04 +0800 CST
  • Martin Hope
    比尔盖子 您可以使用花括号初始化列表作为(默认)模板参数吗? 2023-12-17 10:02:06 +0800 CST
  • Martin Hope
    Amir reza Riahi 为什么列表推导式在内部创建一个函数? 2023-11-16 20:53:19 +0800 CST
  • Martin Hope
    Michael A fmt 格式 %H:%M:%S 不带小数 2023-11-11 01:13:05 +0800 CST
  • Martin Hope
    God I Hate Python C++20 的 std::views::filter 未正确过滤视图 2023-08-27 18:40:35 +0800 CST
  • Martin Hope
    LiDa Cute 为什么 'char -> int' 是提升,而 'char -> Short' 是转换(但不是提升)? 2023-08-24 20:46:59 +0800 CST
  • Martin Hope
    jabaa 为什么库中不调用全局变量的构造函数? 2023-08-18 07:15:20 +0800 CST
  • Martin Hope
    Panagiotis Syskakis std::common_reference_with 在元组上的行为不一致。哪个是对的? 2023-08-17 21:24:06 +0800 CST
  • Martin Hope
    Alex Guteniev 为什么编译器在这里错过矢量化? 2023-08-17 18:58:07 +0800 CST
  • Martin Hope
    wimalopaan C++17 中 std::byte 只能按位运算? 2023-08-17 17:13:58 +0800 CST

热门标签

python javascript c++ c# java typescript sql reactjs html

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve