Eu tenho este código:
import polars as pl
cols = ['Delta', 'Qty']
metrics = {'CHECK.US': {'Delta': {'ABC': 1, 'DEF': 2}, 'Qty': {'GHIJ': 3, 'TT': 4}},
'CHECK.NA': {},
'CHECK.FR': {'Delta': {'QQQ': 7, 'ABC': 6}, 'Qty': {'SS': 9, 'TT': 5}}
}
df = pl.DataFrame([{col: v.get(col) for col in cols} for v in metrics.values()])\
.insert_column(0, pl.Series('key', metrics.keys()))\
.with_columns([pl.col(col).name.map_fields(lambda x: f'{col} ({x})') for col in cols])
Agora, df.unnest('Qty')
fornece corretamente todas as colunas formatadas como Qty (xxx)
:
shape: (3, 5)
┌──────────┬────────────┬────────────┬──────────┬──────────┐
│ key ┆ Delta ┆ Qty (GHIJ) ┆ Qty (TT) ┆ Qty (SS) │
│ --- ┆ --- ┆ --- ┆ --- ┆ --- │
│ str ┆ struct[3] ┆ i64 ┆ i64 ┆ i64 │
╞══════════╪════════════╪════════════╪══════════╪══════════╡
│ CHECK.US ┆ {1,2,null} ┆ 3 ┆ 4 ┆ null │
│ CHECK.NA ┆ null ┆ null ┆ null ┆ null │
│ CHECK.FR ┆ {6,null,7} ┆ null ┆ 5 ┆ 9 │
└──────────┴────────────┴────────────┴──────────┴──────────┘
Entretanto, quando faço a mesma coisa, df.unnest('Delta')
ele retorna incorretamente colunas com Qty (xxx)
:
shape: (3, 5)
┌──────────┬───────────┬───────────┬───────────┬────────────┐
│ key ┆ Qty (ABC) ┆ Qty (DEF) ┆ Qty (QQQ) ┆ Qty │
│ --- ┆ --- ┆ --- ┆ --- ┆ --- │
│ str ┆ i64 ┆ i64 ┆ i64 ┆ struct[3] │
╞══════════╪═══════════╪═══════════╪═══════════╪════════════╡
│ CHECK.US ┆ 1 ┆ 2 ┆ null ┆ {3,4,null} │
│ CHECK.NA ┆ null ┆ null ┆ null ┆ null │
│ CHECK.FR ┆ 6 ┆ null ┆ 7 ┆ {null,5,9} │
└──────────┴───────────┴───────────┴───────────┴────────────┘
Os valores parecem corretos, apenas os nomes das colunas estão errados.
Estou usando pl.col(col).name.map_field(...)
incorretamente? Como posso consertar meu código para que a saída se torne esta:
shape: (3, 5)
┌──────────┬─────────────┬─────────────┬─────────────┬────────────┐
│ key ┆ Delta (ABC) ┆ Delta (DEF) ┆ Delta (QQQ) ┆ Qty │
│ --- ┆ --- ┆ --- ┆ --- ┆ --- │
│ str ┆ i64 ┆ i64 ┆ i64 ┆ struct[3] │
╞══════════╪═════════════╪═════════════╪═════════════╪════════════╡
?
É mais um "Gotcha" geral do Python em relação a lambdas dentro de loops.
col
está sendo definido como o último valor no loop para cada lambda.A solução alternativa é usar parâmetros nomeados.
No seu exemplo específico:
1. link