这是我的数据框:
import pandas as pd
df = pd.DataFrame(
{
'a': ['long', 'long', 'short', 'long', 'short', 'short', 'short'],
'b': [1, -1, 1, 1, -1, -1, 1],
}
)
预期输出正在创建列a_1
:
a b a_1
0 long 1 long
1 long -1 long
2 short 1 short
3 long 1 long
4 short -1 long
5 short -1 long
6 short 1 short
逻辑:
a_1
应像这样创建:
df.loc[df.b.eq(-1), 'a_1'] = 'long'
df['a_1'] = df.a_1.fillna(df.a)
这个问题真的很奇怪。我试了一下,fillna
它不起作用。我尝试使用 pandas 版本 1.2.4,它起作用了,但使用版本 2.1.4 却不起作用。此版本目前是 Colab 的默认版本,我在 Colab 上运行了此代码。
这在 pandas 版本 2.2.2 中运行良好,这可能是该版本的一个错误。
但您可以通过以下方式实现相同的输出:
另一种选择:
这似乎是由于 2.1.4 在创建仅具有部分值的字符串列时将 NaN 生成为“nan”造成的。无论原因是什么,Pandas 都不建议持续更新与条件语句匹配的值。Pandas 的
mask
函数是针对这种情况定制的,因此请使用它。