Usando fby para soma cumulativa em KDB/Q, mas não obtendo a saída correta

Question

Phil-ZXX

Asked: 2024-09-12 19:17:14 +0800 CST2024-09-12 19:17:14 +0800 CST 2024-09-12 19:17:14 +0800 CST

Soma entre colunas do mesmo nome (ou "chave") no dataframe polars

772

Eu tenho esse código

import polars as pl

pl.DataFrame({
    'id': ['CHECK.US1', 'CHECK.US2', 'CHECK.CA9'],
    'libor.M2': [99, 332, 934],
    'libor.Y5': [11, -10, 904],
    'estr.M2':  [99, 271, 741],
    'estr.Y3':  [-8, -24, 183],
    'estr.Y5':  [88, 771, 455]
})

o que dá

┌───────────┬──────────┬──────────┬─────────┬─────────┬─────────┐
│ id        ┆ libor.M2 ┆ libor.Y5 ┆ estr.M2 ┆ estr.Y3 ┆ estr.Y5 │
│ ---       ┆ ---      ┆ ---      ┆ ---     ┆ ---     ┆ ---     │
│ str       ┆ i64      ┆ i64      ┆ i64     ┆ i64     ┆ i64     │
╞═══════════╪══════════╪══════════╪═════════╪═════════╪═════════╡
│ CHECK.US1 ┆ 99       ┆ 11       ┆ 99      ┆ -8      ┆ 88      │
│ CHECK.US2 ┆ 332      ┆ -10      ┆ 271     ┆ -24     ┆ 771     │
│ CHECK.CA9 ┆ 934      ┆ 904      ┆ 741     ┆ 183     ┆ 455     │
└───────────┴──────────┴──────────┴─────────┴─────────┴─────────┘

Agora o que estou tentando fazer é renomear as colunas para nomes mais curtos, como

┌───────────┬──────┬──────┬─────┬─────┬─────┐
│ id        ┆ M2   ┆ Y5   ┆ M2  ┆ Y3  ┆ Y5  │
│ ---       ┆ ---  ┆ ---  ┆ --- ┆ --- ┆ --- │
│ str       ┆ i64  ┆ i64  ┆ i64 ┆ i64 ┆ i64 │
╞═══════════╪══════╪══════╪═════╪═════╪═════╡
or
┌───────────┬──────┬──────┬─────┬─────┬─────┐
│ id        ┆ libor┆ libor┆ estr┆ estr┆ estr│
│ ---       ┆ ---  ┆ ---  ┆ --- ┆ --- ┆ --- │
│ str       ┆ i64  ┆ i64  ┆ i64 ┆ i64 ┆ i64 │
╞═══════════╪══════╪══════╪═════╪═════╪═════╡

e então recolher (= soma) nas colunas com o mesmo nome, para que eu obtenha, por exemplo

┌───────────┬──────┬──────┬──────┐
│ id        ┆ M2   ┆ Y5   ┆ Y3   │
│ ---       ┆ ---  ┆ ---  ┆ ---  │
│ str       ┆ i64  ┆ i64  ┆ i64  │
╞═══════════╪══════╪══════╪══════╡
│ CHECK.US1 ┆ 198  ┆ 99   ┆ -8   │
│ CHECK.US2 ┆ 603  ┆ 761  ┆ -24  │
│ CHECK.CA9 ┆ 1675 ┆ 1359 ┆ 183  │
└───────────┴──────┴──────┴──────┘

Tentei renomeá-los primeiro, mas não obtive sucesso polars.exceptions.DuplicateError: the name 'M2' is duplicate.

Existe uma maneira de conseguir o que estou tentando fazer?

editar: Eu também tentei algo como

rename_func = lambda col: col.split('.')[-1]
new_cols = set([rename_func(c) for c in df.columns])

df.with_columns([
  pl.sum_horizontal(pl.all().map(rename_func) == c).alias(c) for c in new_cols
])

mas não funciona muito bem.

2 respostas

Voted

mozway · Answer 1 · 2024-09-12T19:26:55+08:00

Best Answer

mozway

2024-09-12T19:26:55+08:002024-09-12T19:26:55+08:00

Você pode criar um dicionário das colunas a serem agregadas e então usar pl.sum_horizontal:

cols = {}
for col in df.columns:
    suffix = col.split('.')[-1]
    cols.setdefault(suffix, []).append(col)
# {'id': ['id'], 'M2': ['libor.M2', 'estr.M2'],
#  'Y5': ['libor.Y5', 'estr.Y5'], 'Y3': ['estr.Y3']}

df.select([pl.sum_horizontal(pl.col(c) for c in l).alias(k)
           for k, l in cols.items()
          ])

Saída:

┌───────────┬──────┬──────┬─────┐
│ id        ┆ M2   ┆ Y5   ┆ Y3  │
│ ---       ┆ ---  ┆ ---  ┆ --- │
│ str       ┆ i64  ┆ i64  ┆ i64 │
╞═══════════╪══════╪══════╪═════╡
│ CHECK.US1 ┆ 198  ┆ 99   ┆ -8  │
│ CHECK.US2 ┆ 603  ┆ 761  ┆ -24 │
│ CHECK.CA9 ┆ 1675 ┆ 1359 ┆ 183 │
└───────────┴──────┴──────┴─────┘

2

Dean MacGregor · Answer 2 · 2024-09-12T20:14:58+08:00

Dean MacGregor

2024-09-12T20:14:58+08:002024-09-12T20:14:58+08:00

Você pode criar seus títulos usando setentão usar regex pl.colpara selecionar essas colunas

headings = set([y[1] for x in df.columns if len(y:=x.split('.'))==2])
df.select('id',
    *[pl.sum_horizontal(pl.col(f"^.+?{y}$")).alias(y) for y in headings]
)

Alternativamente, você pode fazer um unpivotre pivotcomo este

(
    df
    .unpivot(index='id')
    .with_columns(pl.col('variable').str.split('.').list.last())
    .pivot('variable', index='id', aggregate_function='sum')
)

O unpivot/pivot provavelmente é mais lento, mas para algumas estruturas de dados a primeira abordagem não funciona.

0

Soma entre colunas do mesmo nome (ou "chave") no dataframe polars

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Soma entre colunas do mesmo nome (ou "chave") no dataframe polars

2 respostas

relate perguntas