Como divido o loop for em 3 quadros de dados individuais?

Question

Carlo Allocca

Asked: 2025-04-16 01:38:39 +0800 CST2025-04-16 01:38:39 +0800 CST 2025-04-16 01:38:39 +0800 CST

Adicionar uma nova linha como média das colunas

772

Dê o seguinte dataframe:

 _BETTER     _SAME    _WORSE   ___dataset     Metric
  0.373802  0.816794  0.568783      Train      precision
  0.391304  0.865229  0.519324      Train      recall
  0.382353  0.840314  0.542929      Train      f1-score
  0.500000  1.000000  0.583333      Val        precision
  0.333333  1.000000  0.736842      Val        recall
  0.400000  1.000000  0.651163      Val        f1-score
  0.000000  0.000000  0.666667      Test       precision
  0.000000  0.000000  0.500000      Test       recall
  0.000000  0.000000  0.571429      Test       f1-score

gostaria de acrescentar o seguinte:

 _BETTER     _SAME    _WORSE   ___dataset     Metric
  0.373802  0.816794  0.568783      Train      precision
  0.391304  0.865229  0.519324      Train      recall
  0.382353  0.840314  0.542929      Train      f1-score
  0.500000  1.000000  0.583333      Val        precision
  0.333333  1.000000  0.736842      Val        recall
  0.400000  1.000000  0.651163      Val        f1-score
  0.000000  0.000000  0.666667      Test       precision
  0.000000  0.000000  0.500000      Test       recall
  0.000000  0.000000  0.571429      Test       f1-score
  mean_p_b  mean_p_s  mean_p_w       All       precision_avg
  mean_r_b  mean_r_s  mean_r_w       All       recall_avg
  mean_f1_b mean_f1_s mean_f1_w      All       f1_score_avg

onde mean_p_b mean_p_s mean_p_w é obtido pela média da linha de precisão, em relação às três colunas, respectivamente. Da mesma forma, mean_r_b mean_r_s mean_r_w e mean_f1_b mean_f1_s mean_f1_w.

Aplicando cada um separadamente:

 df_avg_precision["BETTER"] = (df_train_precision['_BETTER'].values + df_val_precision['_BETTER'].values + 
 df_test_precision['_BETTER'].values)/3
 df_avg_precision["Metric"] = "precision_avg"
 df_avg_recall["BETTER"] = (df_train_recall['_BETTER'].values + 
 df_val_recall['_BETTER'].values + df_test_recall['_BETTER'].values)/3
 df_avg_recall["Metric"] = "recall_avg"
 df_avg_f1["BETTER"] = (df_train_f1['_BETTER'].values + 
 df_val_f1['_BETTER'].values + df_test_f1['_BETTER'].values)/3
 df_avg_f1["Metric"] = "f1_avg"`

2 respostas

Voted

furas · Answer 1 · 2025-04-16T03:53:49+08:00

Você pode usar df.groupby(...).mean(...)para isso

series_metric_mean = df.groupby('Metric').mean(['_BETTER', '_SAME', '_WORSE'])

            _BETTER     _SAME    _WORSE
Metric                                 
f1-score   0.260784  0.613438  0.588507
precision  0.291267  0.605598  0.606261
recall     0.241546  0.621743  0.585389

(para manter f1-scorecomo última linha necessária groupb(..., sort=False))

Ele fornece Seriesapenas com _BETTER, _SAME, _WORSE(e Metriccomo índice), então ele precisa

adicione __datasetcom All.
adicione o sufixo _avgem Metric(neste momento ainda está como índice).
convertê-lo para DataFrame()(usando reset_index()- ele converte o índice Metricpara coluna normal).
concatanexá-lo aos dados originais.

series_metric_mean['___dataset'] = 'All'

series_metric_mean.index = series_metric_mean.index + '_avg'

df_metric_mean = series_metric_mean.reset_index()

df = pd.concat([df, df_metric_mean]).reset_index(drop=True)

Código funcional completo com dados de exemplo em formato de texto.
Eu o utilizo ioapenas para criar objetos do tipo arquivo, para que todos possam simplesmente copiá-lo e executá-lo.

text1 = """_BETTER     _SAME    _WORSE   ___dataset     Metric
  0.373802  0.816794  0.568783      Train      precision
  0.391304  0.865229  0.519324      Train      recall
  0.382353  0.840314  0.542929      Train      f1-score
  0.500000  1.000000  0.583333      Val        precision
  0.333333  1.000000  0.736842      Val        recall
  0.400000  1.000000  0.651163      Val        f1-score
  0.000000  0.000000  0.666667      Test       precision
  0.000000  0.000000  0.500000      Test       recall
  0.000000  0.000000  0.571429      Test       f1-score
"""

# example from @Adeva1 answer 
text2 = """_BETTER     _SAME    _WORSE ___dataset     Metric
0.568783  0.568783  0.568783    Train  precision
0.519324  0.519324  0.519324    Train     recall
0.542929  0.542929  0.542929    Train   f1-score
0.583333  0.583333  0.583333      Val  precision
0.736842  0.736842  0.736842      Val     recall
0.651163  0.651163  0.651163      Val   f1-score
0.651163  0.651163  0.651163     Test  precision
0.500000  0.500000  0.500000     Test     recall
0.571429  0.571429  0.571429     Test   f1-score
"""

import pandas as pd
import io

df = pd.read_csv(io.StringIO(text1), sep='\\s+')
#print(df)

series_metric_mean = df.groupby('Metric', sort=False).mean(['_BETTER', '_SAME', '_WORSE'])

series_metric_mean['___dataset'] = 'All'
series_metric_mean.index = series_metric_mean.index + '_avg'
print(series_metric_mean)

df_metric_mean = series_metric_mean.reset_index()
print(df_metric_mean)

df = pd.concat([df, df_metric_mean]).reset_index(drop=True)
print(df)

Resultado (para text1)

                _BETTER     _SAME    _WORSE ___dataset
Metric                                                
f1-score_avg   0.260784  0.613438  0.588507        All
precision_avg  0.291267  0.605598  0.606261        All
recall_avg     0.241546  0.621743  0.585389        All

          Metric   _BETTER     _SAME    _WORSE ___dataset
0   f1-score_avg  0.260784  0.613438  0.588507        All
1  precision_avg  0.291267  0.605598  0.606261        All
2     recall_avg  0.241546  0.621743  0.585389        All

     _BETTER     _SAME    _WORSE ___dataset         Metric
0   0.373802  0.816794  0.568783      Train      precision
1   0.391304  0.865229  0.519324      Train         recall
2   0.382353  0.840314  0.542929      Train       f1-score
3   0.500000  1.000000  0.583333        Val      precision
4   0.333333  1.000000  0.736842        Val         recall
5   0.400000  1.000000  0.651163        Val       f1-score
6   0.000000  0.000000  0.666667       Test      precision
7   0.000000  0.000000  0.500000       Test         recall
8   0.000000  0.000000  0.571429       Test       f1-score
9   0.291267  0.605598  0.606261        All  precision_avg
10  0.241546  0.621743  0.585389        All     recall_avg
11  0.260784  0.613438  0.588507        All   f1-score_avg

Resultado (por text2exemplo da resposta de @Adeva1)

            _BETTER     _SAME    _WORSE
Metric                                 
precision  0.601093  0.601093  0.601093
recall     0.585389  0.585389  0.585389
f1-score   0.588507  0.588507  0.588507

                _BETTER     _SAME    _WORSE ___dataset
Metric                                                
precision_avg  0.601093  0.601093  0.601093        All
recall_avg     0.585389  0.585389  0.585389        All
f1-score_avg   0.588507  0.588507  0.588507        All

          Metric   _BETTER     _SAME    _WORSE ___dataset
0  precision_avg  0.601093  0.601093  0.601093        All
1     recall_avg  0.585389  0.585389  0.585389        All
2   f1-score_avg  0.588507  0.588507  0.588507        All

     _BETTER     _SAME    _WORSE ___dataset         Metric
0   0.568783  0.568783  0.568783      Train      precision
1   0.519324  0.519324  0.519324      Train         recall
2   0.542929  0.542929  0.542929      Train       f1-score
3   0.583333  0.583333  0.583333        Val      precision
4   0.736842  0.736842  0.736842        Val         recall
5   0.651163  0.651163  0.651163        Val       f1-score
6   0.651163  0.651163  0.651163       Test      precision
7   0.500000  0.500000  0.500000       Test         recall
8   0.571429  0.571429  0.571429       Test       f1-score
9   0.601093  0.601093  0.601093        All  precision_avg
10  0.585389  0.585389  0.585389        All     recall_avg
11  0.588507  0.588507  0.588507        All   f1-score_avg

Doutor:

Adeva1 · Answer 2 · 2025-04-16T02:35:18+08:00

Você pode tentar algo assim:

for metric in df['Metric'].unique(): # Obtain list of unique metric values
    metric_mean = []
    for col in df.columns[:-2].tolist(): # Obtain list of relevant df columns
        mean_value = df[df['Metric'] == metric][col].mean() 
        metric_mean.append(mean_value)
    df.loc[len(df)] = metric_mean + ['All', f'{metric}_avg'] # Append row to column

Entrada (Exemplo)

    _BETTER     _SAME    _WORSE _dataset     Metric
0  0.568783  0.568783  0.568783    Train  precision
1  0.519324  0.519324  0.519324    Train     recall
2  0.542929  0.542929  0.542929    Train   f1-score
3  0.583333  0.583333  0.583333      Val  precision
4  0.736842  0.736842  0.736842      Val     recall
5  0.651163  0.651163  0.651163      Val   f1-score
6  0.651163  0.651163  0.651163     Test  precision
7  0.500000  0.500000  0.500000     Test     recall
8  0.571429  0.571429  0.571429     Test   f1-score

Saída

     _BETTER     _SAME    _WORSE _dataset     Metric
0   0.568783  0.568783  0.568783    Train  precision
1   0.519324  0.519324  0.519324    Train     recall
2   0.542929  0.542929  0.542929    Train   f1-score
3   0.583333  0.583333  0.583333      Val  precision
4   0.736842  0.736842  0.736842      Val     recall
5   0.651163  0.651163  0.651163      Val   f1-score
6   0.651163  0.651163  0.651163     Test  precision
7   0.500000  0.500000  0.500000     Test     recall
8   0.571429  0.571429  0.571429     Test   f1-score
9   0.601093  0.601093  0.601093      All  precision_avg
10  0.585389  0.585389  0.585389      All     recall_avg
11  0.588507  0.588507  0.588507      All   f1-score_avg

Adicionar uma nova linha como média das colunas

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Adicionar uma nova linha como média das colunas

2 respostas

relate perguntas