Preciso atribuir pontuações a cada um dos valores em muitas colunas de um dataframe do pandas, dependendo do intervalo de pontuação percentual entre cada valor.
Criei uma função:
import pandas as pd
import numpy as np
def get_percentiles(x, percentile_array):
percentile_array = np.sort(np.array(percentile_array))
if x < x.quantile(percentile_array[0]) < 0:
return 1
elif (x >= x.quantile(percentile_array[0]) & (x < x.quantile(percentile_array[1]):
return 2
elif (x >= x.quantile(percentile_array[1]) & (x < x.quantile(percentile_array[2]):
return 3
elif (x >= x.quantile(percentile_array[2]) & (x < x.quantile(percentile_array[3]):
return 4
else:
return 5
Dados de amostra:
df = pd.DataFrame({'col1' : [1,10,5,9,15,4],
'col2' : [4,10,15,19,3,2],
'col3' : [10,5,6,9,1,24]})
Quando tento executar a função usando apply:
percentile_array = [0.05, 0.25, 0.5, 0.75]
df.apply(lambda x : get_percentiles(x, percentile_array), result_type = 'expand')
Recebo o erro abaixo:
Truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all()
A saída esperada é um novo dataframe com 3 colunas que tem pontuações entre 1 e 5 dependendo de qual intervalo de percentil cada valor em cada coluna se enquadra
Se bem me lembro, você poderia usar
rank
para calcular o percentil (por coluna) e entãopandas.cut
agrupar os valores em sua referência:Alternativamente, com
numpy.searchsorted
:Saída:
Intermediário:
Para que a função original funcionasse, você precisaria de algo como: