我需要为 pandas 数据框的许多列中的每个值分配分数,具体取决于每个值之间的百分位数分数范围。
我创建了一个函数:
import pandas as pd
import numpy as np
def get_percentiles(x, percentile_array):
percentile_array = np.sort(np.array(percentile_array))
if x < x.quantile(percentile_array[0]) < 0:
return 1
elif (x >= x.quantile(percentile_array[0]) & (x < x.quantile(percentile_array[1]):
return 2
elif (x >= x.quantile(percentile_array[1]) & (x < x.quantile(percentile_array[2]):
return 3
elif (x >= x.quantile(percentile_array[2]) & (x < x.quantile(percentile_array[3]):
return 4
else:
return 5
样本数据:
df = pd.DataFrame({'col1' : [1,10,5,9,15,4],
'col2' : [4,10,15,19,3,2],
'col3' : [10,5,6,9,1,24]})
当我尝试使用 apply 运行该函数时:
percentile_array = [0.05, 0.25, 0.5, 0.75]
df.apply(lambda x : get_percentiles(x, percentile_array), result_type = 'expand')
我收到以下错误:
Truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all()
预期输出是包含 3 列的新数据框,其分数介于 1 到 5 之间,具体取决于每列中每个值属于哪个百分位范围