如何将 for 循环拆分为 3 个单独的数据框？

Question

mabanalyst

Asked: 2024-01-16 02:55:44 +0800 CST2024-01-16 02:55:44 +0800 CST 2024-01-16 02:55:44 +0800 CST

显示给定条件的行索引号

772

我目前正在尝试练习一些数据操作程序，并面临着如何根据特殊条件创建子集的问题。

我们假设数据框如下所示：

Name    ID     ContractDate LoanSum DurationOfDelay
A       ID1    2023-01-01   10      10 
A       ID1    2023-01-03   15      15
A       ID1    2022-12-29   20      0
A       ID1    2022-12-28   40      0
B       ID2    2023-01-05   15      19
B       ID2    2023-01-10   30      0
B       ID2    2023-01-07   35      25
B       ID2    2023-01-06   35      0

我的目标是为每个唯一 ID（或名称）显示首先发放的贷款的索引号，且 DurationOfDelay > 0

预期结果：

Name    ID     IndexNum
A       ID1    3 
B       ID2    1

说明：对于 ID1，发放了四笔贷款：2022-12-28、2022-12-29、2023-01-01 和 2023-01-03。我们可以在 2023-01-01 首先识别出 DurationOfDelay > 0 的存在，这是向借款人发放的第三笔贷款。

ID2 还发放了四笔贷款：2023-01-05、2023-01-06、2023-01-07 和 2023-01-10。我们可以在 2023-01-05 首先识别出 DurationOfDelay > 0 的存在，这是向借款人发放的第一笔贷款。

到目前为止我所做的：

window_spec_subset = Window.partitionBy('ID').orderBy('ContractDate')
subset = df.filter(F.col('DurationOfDelay') > 0) \
                .withColumn('row_num', F.row_number().over(window_spec_subset)) \
                .filter(F.col('row_num') == 1) \
                .drop('row_num')
subset.show()

+----+---+------------+-------+---------------+
|Name| ID|ContractDate|LoanSum|DurationOfDelay|
+----+---+------------+-------+---------------+
|   A|ID1|  2023-01-01|     10|             10|
|   B|ID2|  2023-01-05|     15|             19|
+----+---+------------+-------+---------------+

这段代码允许我以这样的方式对数据进行分组：对于每个借款人，仅返回最先发放且 DurationOfDelay > 0 的贷款。

但我堆叠起来显示首先发放的贷款的索引号，而 DurationOfDelay > 0。

您愿意帮助我取得这些成果吗？非常感谢任何形式的帮助！

1 个回答

Voted

Corralien · Answer 1 · 2024-01-16T03:48:09+08:00

Best Answer

Corralien

2024-01-16T03:48:09+08:002024-01-16T03:48:09+08:00

可能不是最有效的，但它应该有效：

subset = (df.withColumn('IndexNum', F.row_number().over(window_spec_subset))
            .filter(F.col('DurationOfDelay') > 0)
            .withColumn('row_num', F.row_number().over(window_spec_subset))
            .filter(F.col('row_num') == 1)
            .drop('row_num'))

输出：

>>> subset.show()
+----+---+------------+-------+---------------+--------+
|Name| ID|ContractDate|LoanSum|DurationOfDelay|IndexNum|
+----+---+------------+-------+---------------+--------+
|   A|ID1|  2023-01-01|     10|             10|       3|
|   B|ID2|  2023-01-05|     15|             19|       1|
+----+---+------------+-------+---------------+--------+

1

显示给定条件的行索引号

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

显示给定条件的行索引号

1 个回答

相关问题