如何将 for 循环拆分为 3 个单独的数据框？

Question

Asked: 2024-04-29 12:17:01 +0800 CST2024-04-29 12:17:01 +0800 CST 2024-04-29 12:17:01 +0800 CST

如何计算列表列行之间的公共元素

772

是否可以计算方法链中的一行和前一行之间的列表列中的公共项的数量？我下面的代码抛出错误 'TypeError: unhashable type: 'list''

import pandas as pd

df = pd.DataFrame({
    'x':[1,2,3,4],
    'list_column': [
        ['apple', 'banana', 'cherry'],
        ['banana', 'cherry'],
        ['cherry', 'date', 'fig'],
        ['orange']
    ]
})

res = len(set(df.loc[1,'list_column']) & set(df.loc[0,'list_column']))
res

df=(df
     .assign(
         list_length=lambda x: x['list_column'].str.len(),
         nr_common=lambda x: (set(x['list_column']) & set(x['list_column'].shift(1))).len() 
         )
)

df

3 个回答

Voted

mozway · Answer 1 · 2024-04-29T12:34:50+08:00

我首先将所有列表转换为集合，然后使用diff：

df.assign(sets=lambda d: d['list_column'].apply(set),
          common=lambda d: d['sets']-d['sets'].diff(),
          n_common=lambda d: d['common'].str.len(),
         )

输出：

   x              list_column                     sets            common  n_common
0  1  [apple, banana, cherry]  {apple, cherry, banana}               NaN       NaN
1  2         [banana, cherry]         {cherry, banana}  {banana, cherry}       2.0
2  3      [cherry, date, fig]      {date, cherry, fig}          {cherry}       1.0
3  4                 [orange]                 {orange}                {}       0.0

如果您不需要中间体：

df.assign(n_common=lambda d: (s:=d['list_column'].apply(set)).sub(s.diff()).str.len())

或者使用自定义函数：

def common_set(s):
    s = s.apply(set)
    return [len(a&b) for a,b in zip(s, s.shift(fill_value=set()))]

df.assign(n_common=lambda d: common_set(d['list_common']))

Michael Butscher · Answer 2 · 2024-04-29T12:48:16+08:00

这种方法将更多的工作转移到 pandas 上，同时apply主要使用 Python。根据实际数据，它可能会更快或更慢：

import pandas as pd

df = pd.DataFrame({
    'x':[1,2,3,4],
    'list_column': [
        ['apple', 'banana', 'cherry'],
        ['banana', 'cherry'],
        ['cherry', 'date', 'fig'],
        ['orange']
    ]
})

df = df.explode('list_column')
df = pd.merge(df, df, left_on=['x', 'list_column'], right_on=[df['x'] - 1, 'list_column'])
del df['x']
df = df.groupby(by=['x_x', 'x_y']).agg('count')
print(df)

印刷：

         list_column
x_x x_y             
1   2              2
2   3              1

x_x和x_y是两个比较行的“x”值。没有共同项目的行将被省略。

Jamie · Answer 3 · 2024-04-29T12:52:03+08:00

对的，这是可能的。这是一种方法。

df = pd.DataFrame({
    'x':[1,2,3,4],
    'list_column': [
        ['apple', 'banana', 'cherry'],
        ['banana', 'cherry'],
        ['cherry', 'date', 'fig'],
        ['orange']
    ]
})


commonlst=[]
for i in range(len(df)):
    if i==0:
        commonlst.append([])
    else:
        lister1=df.iloc[i]['list_column']
        lister2=df.iloc[i-1]['list_column']
        commonones=np.intersect1d(lister1, lister2)
        commonlst.append(commonones)
df['CommonOnes']=commonlst

outcountlst=[]
for j in range(len(df)):
    outcount=len(df.iloc[j]['CommonOnes'])
    outcountlst.append(outcount)
df['NumCommonOnes']=outcountlst
display(df)

如何计算列表列行之间的公共元素

为什么双破折号 (--) 会导致此 MariaDB 子句评估为 true？

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

ELF 重定位的应用顺序在哪里指定？

为什么 GCC 生成有条件执行 SIMD 实现的代码？

Selenium urllib.error.HTTPError：HTTP 错误 404：未找到

Box::new() 会从堆栈复制到堆吗？

sizeof("string") 的正确输出是什么？

使用 <font color="#xxx"> 突出显示 html 中的代码

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

C++17 中 std::byte 只能按位运算？

如何计算列表列行之间的公共元素

3 个回答

相关问题