从重复行中提取字符串，删除重复项，给出字符串计数[重复]

Question

MuhammedYunus StopTheGenocide

Asked: 2024-12-21 23:37:19 +0800 CST2024-12-21 23:37:19 +0800 CST 2024-12-21 23:37:19 +0800 CST

如何完全在线地链接熊猫中的操作？

772

我经常想display在一系列链接操作中同时操作数据框，为此我会使用*：

df = (
  df

  #Modify the dataframe:
  .assign(new_column=...)

  #View result (without killing the chain)
  .pipe(lambda df_: display(df_) or df_)

  #...further chaining is possible
)

上面的代码块添加new_column到数据框，显示新的数据框，最后返回它。这里链接有效，因为display返回None**。

display我的问题是关于我想用plt.plot或某些不返回的函数替换的情况None。在这种情况下，df_将不再通过链传播。

目前，我的目标是定义一个transparent_pipe可以运行的外部函数plt.plot或任何其他方法，同时确保数据框得到传播：

def transparent_pipe(df, *funcs):
  [func(df) for func in funcs]
  return df

df = (
  df

  #Modify the dataframe:
  .assign(new_column=...)

  #Visualise a column from the modified df, without killing the chain
  .pipe(lambda df_: transparent_pipe(df_, plt.ecdf(df_.new_column), display(df_), ...)

  #...further chaining is possible
)

问题

是否有一种完全在线的方式可以做到这一点，而不需要定义transparent_pipe？

最好只使用pandas。

*来自《Effective Pandas 2：数据操作的固执模式》的提示，M. Harrison，2024 年。

**由于计算结果为，因此该.pipe运算返回。df_display(df_) or df_None or df_df_

2 个回答

Voted

mozway · Answer 1 · 2024-12-21T23:42:43+08:00

通过pyjanitor，您可以使用also：

# pip install pyjanitor
import janitor

df = (pd.DataFrame({'col1': [1, 2, 3], 'col2': [4, 5, 6]})
        .also(display)
        .mul(10)
     )

或者，使用包装函数隐藏任何函数的输出并将其替换为其第一个参数（= DataFrame）：

def hide(f):
    """The inner function should accept the DataFrame as first parameter"""
    def inner(df, *args, **kwargs):
        f(df, *args, **kwargs)
        return df
    return inner

df = (pd.DataFrame({'col1': [1, 2, 3], 'col2': [4, 5, 6]})
        .pipe(hide(display))
        .mul(10)
     )

或者，像原来的方法一样采用短路：

df = (pd.DataFrame({'col1': [1, 2, 3], 'col2': [4, 5, 6]})
        .pipe(lambda x: plt.ecdf(x['col1']) and False or x) # truthy output
        .pipe(lambda x: display(x['col1']) and False or x)  # falsy output
        .mul(10)
     )

或者用元组强制得出真值：

df = (pd.DataFrame({'col1': [1, 2, 3], 'col2': [4, 5, 6]})
        # example 1
        .pipe(lambda x: (display(x),) and x)
        # example 2
        .pipe(lambda x: (display(x), plt.ecdf(x['col1'])) and x)
        .mul(10)
     )

MuhammedYunus StopTheGenocide · Answer 2 · 2024-12-21T23:37:19+08:00

MuhammedYunus StopTheGenocide

2024-12-21T23:37:19+08:002024-12-21T23:37:19+08:00

list您也可以在操作内部编写一个.pipe()，然后从该列表中提取数据框：.pipe(lambda x: [x, funcA(x), funcB(x), ...][0])

df = (
  df

  #Modify the dataframe:
  .assign(new_column=...)

  #Various visualisations, without killing the chain
  .pipe(lambda df_: [display(df_), plt.ecdf(df_.new_column), ..., df_)[-1]

  #...further chaining is possible
)

这使得您可以在线定义和运行任意操作，同时还确保修改后的数据框将被传播。

我选择了@mozway 的答案而不是这个答案，尽管它们非常相似。

@mozway 的第四个建议是：

.pipe(lambda x: (funcA(x), funcB(x), ...) and x)

我更喜欢它，因为不需要索引数据框，它会通过真实性评估自动返回。

0

如何完全在线地链接熊猫中的操作？

问题

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

为什么这个简单而小的 Java 代码在所有 Graal JVM 上的运行速度都快 30 倍，但在任何 Oracle JVM 上却不行？

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

何时应使用 std::inplace_vector 而不是 std::vector？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

如何完全在线地链接熊猫中的操作？

问题

2 个回答

相关问题