Como usar o operador null safe no scala?

Question

sara ali khan

Asked: 2023-08-27 13:30:29 +0800 CST2023-08-27 13:30:29 +0800 CST 2023-08-27 13:30:29 +0800 CST

Valor máximo em relação ao ano de ocorrência do pyspark

772

Código:

# Rename the columns after pivoting
new_column_names = ["Year"] + [col_name.replace(" ", "_") for col_name in pivot_table.columns[1:]]
pivot_table = pivot_table.toDF(*new_column_names)

# Task 4: Calculate percentage change
percentage_cols = pivot_table.columns[1:]  # Exclude the "Year" column
window_spec = Window.orderBy("Year")
print(pivot_table.columns)
pivot_table  = pivot_table.drop('Other_purchases_and_operating_expenses')

# Calculate percentage change using a loop
for col_name in percentage_cols:
    pivot_table = pivot_table.withColumn(f"{col_name}_lag", lag(col(col_name)).over(window_spec))
    pivot_table = pivot_table.withColumn(f"{col_name}_change", (col(col_name) - col(f"{col_name}_lag")) / col(f"{col_name}_lag") * 100)
    pivot_table = pivot_table.drop(f"{col_name}_lag")
    pivot_table = pivot_table.drop(f"{col_name}")

A saída do código é

year column ,variablenames column 3

Quero a alteração percentual máxima de cada coluna e quando ocorreu no dataframe

1 respostas

Voted

Akhaya Chandan Mishra · Answer 1 · 2023-08-27T15:30:38+08:00

Criou um dataframe de amostra de acordo com sua necessidade e de acordo com sua pergunta

from pyspark.sql import *
from pyspark.sql.window import *
from pyspark.sql.functions import *

# Initialize Spark session
spark = SparkSession.builder.appName("PercentageChangeCalculation").getOrCreate()

# Sample data
data = [
    ("2020", 100, 120, 80),
    ("2021", 130, 150, 110),
    ("2022", 260, 180, 140)
]

columns = ["Year", "Sales", "Expenses", "Profit"]

# Create DataFrame
df = spark.createDataFrame(data, columns)

# Pivot the DataFrame (assuming you've already pivoted the data)
pivot_table = df

# Rename columns
new_column_names = ["Year"] + [col_name.replace(" ", "_") for col_name in pivot_table.columns[1:]]
pivot_table = pivot_table.toDF(*new_column_names)

# Task 4: Calculate percentage change
percentage_cols = pivot_table.columns[1:]  # Exclude the "Year" column
window_spec = Window.orderBy("Year")

pivot_table = pivot_table.drop("Other_purchases_and_operating_expenses")

# Calculate percentage change using a loop
for col_name in percentage_cols:
    pivot_table = pivot_table.withColumn(f"{col_name}_lag", lag(col(col_name)).over(window_spec))
    pivot_table = pivot_table.withColumn(f"{col_name}_change", (col(col_name) - col(f"{col_name}_lag")) / col(f"{col_name}_lag") * 100)
    pivot_table = pivot_table.drop(f"{col_name}_lag")
    pivot_table = pivot_table.drop(f"{col_name}")

pivot_table.show()

SAÍDA:-

+----+------------+---------------+-----------------+
|Year|Sales_change|Expenses_change|    Profit_change|
+----+------------+---------------+-----------------+
|2020|        null|           null|             null|
|2021|        30.0|           25.0|             37.5|
|2022|       100.0|           20.0|27.27272727272727|
+----+------------+---------------+-----------------+

Para obter a alteração percentual máxima de cada coluna e quando ocorreu no dataframe, use isto

percentage_cols = pivot_table.columns[1:]  
result_data = []

for column_name in percentage_cols:
    max_value_row = pivot_table.select(column_name, "Year").orderBy(col(column_name).desc()).first()
    max_value = max_value_row[column_name]
    max_name = max_value_row["Year"]
    # print(max_value_row)
    result_data.append(Row(column_name=column_name, max_value=max_value, occored_in=max_name))

    # print(column_name,max_value,max_name)
result_df = spark.createDataFrame(result_data)
result_df.show()

Saída

+---------------+---------+----------+
|    column_name|max_value|occored_in|
+---------------+---------+----------+
|   Sales_change|    100.0|      2022|
|Expenses_change|     25.0|      2021|
|  Profit_change|     37.5|      2021|
+---------------+---------+----------+

Valor máximo em relação ao ano de ocorrência do pyspark

destaque o código em HTML usando <font color="#xxx">

Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}?

Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)?

Por que as compreensões de lista criam uma função internamente?

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)?

Por que o construtor de uma variável global não é chamado em uma biblioteca?

Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto?

Somente operações bit a bit para std::byte em C++ 17?

Valor máximo em relação ao ano de ocorrência do pyspark

1 respostas

relate perguntas