Como divido o loop for em 3 quadros de dados individuais?

Question

Azmy Rajab

Asked: 2024-04-10 04:25:28 +0800 CST2024-04-10 04:25:28 +0800 CST 2024-04-10 04:25:28 +0800 CST

Como descompactar uma string em várias colunas em um DataFrame Polars usando expressões?

772

Eu tenho um DataFrame Polars contendo uma coluna com strings representando exposições 'esparsas' do setor, assim:

pl.DataFrame(
    [
        pl.Series("sector_exposure", [
            'Technology=0.207;Financials=0.090;Health Care=0.084;Consumer Discretionary=0.069', 
            'Financials=0.250;Health Care=0.200;Consumer Staples=0.150;Industrials=0.400'
            ], dtype=pl.String),
    ]
)

exposição_do setor
Tecnologia=0,207;Finanças=0,090;Cuidados de saúde=0,084;Consumidor discricionário=0,069
Finanças = 0,250; Cuidados de saúde = 0,200; Produtos básicos de consumo = 0,150; Industriais = 0,400

Quero "descompactar" essa string em novas colunas para cada setor (por exemplo, Tecnologia, Finanças, Saúde) com valores associados ou uma estrutura polar com nomes de setores como campos e valores de exposição.

Estou procurando uma solução mais eficiente usando apenas expressões polares, sem recorrer a loops Python (ou funções mapeadas em python). Alguém pode fornecer orientação sobre como fazer isso?

Foi isso que descobri até agora - que funciona na produção da estrutura desejada, mas é um pouco lento.

(
    df["sector_exposure"]
    .str
    .split(";")
    .map_elements(lambda x: {entry.split('=')[0]: float(entry.split('=')[1]) for entry in x},
                  skip_nulls=True,
                  )
)

Obrigado!

2 respostas

Voted

Dean MacGregor · Answer 1 · 2024-04-10T04:58:06+08:00

Existem potencialmente duas maneiras de fazer isso em que consigo pensar.

Extrato Regex

df.with_columns(pl.col('sector_exposure').str.extract(x+r"=(\d+\.\d+)").cast(pl.Float64).alias(x) 
                for x in ["Technology", "Financials", "Health Care", "Consumer Discretionary",
                          "Consumer Staples","Industrials"])

shape: (2, 7)
┌────────────────┬────────────┬────────────┬─────────────┬────────────────┬──────────┬─────────────┐
│ sector_exposur ┆ Technology ┆ Financials ┆ Health Care ┆ Consumer       ┆ Consumer ┆ Industrials │
│ e              ┆ ---        ┆ ---        ┆ ---         ┆ Discretionary  ┆ Staples  ┆ ---         │
│ ---            ┆ f64        ┆ f64        ┆ f64         ┆ ---            ┆ ---      ┆ f64         │
│ str            ┆            ┆            ┆             ┆ f64            ┆ f64      ┆             │
╞════════════════╪════════════╪════════════╪═════════════╪════════════════╪══════════╪═════════════╡
│ Technology=0.2 ┆ 0.207      ┆ 0.09       ┆ 0.084       ┆ 0.069          ┆ null     ┆ null        │
│ 07;Financials= ┆            ┆            ┆             ┆                ┆          ┆             │
│ 0.090;Health   ┆            ┆            ┆             ┆                ┆          ┆             │
│ Care=0.084;Con ┆            ┆            ┆             ┆                ┆          ┆             │
│ sumer Discreti ┆            ┆            ┆             ┆                ┆          ┆             │
│ onary=0.069    ┆            ┆            ┆             ┆                ┆          ┆             │
│ Financials=0.2 ┆ null       ┆ 0.25       ┆ 0.2         ┆ null           ┆ 0.15     ┆ 0.4         │
│ 50;Health Care ┆            ┆            ┆             ┆                ┆          ┆             │
│ =0.200;Consume ┆            ┆            ┆             ┆                ┆          ┆             │
│ r Staples=0.15 ┆            ┆            ┆             ┆                ┆          ┆             │
│ 0;Industrials= ┆            ┆            ┆             ┆                ┆          ┆             │
│ 0.400          ┆            ┆            ┆             ┆                ┆          ┆             │
└────────────────┴────────────┴────────────┴─────────────┴────────────────┴──────────┴─────────────┘

Neste estamos contando com todos os números sendo decimais (você pode ajustar o regex para contornar isso um pouco) e todos os setores sendo pré-especificados no gerador dentrowith_columns

Dividir e girar

(
    df
    .with_columns(str_split=pl.col('sector_exposure').str.split(';'))
    .explode('str_split')
    .with_columns(
        pl.col('str_split')
        .str.split('=')
        .list.to_struct(fields=['sector','value'])
        )
    .unnest('str_split')
    .pivot(values='value',index='sector_exposure',columns='sector',aggregate_function='first')
    .with_columns(pl.exclude('sector_exposure').cast(pl.Float64))
    )
shape: (2, 7)
┌────────────────┬────────────┬────────────┬─────────────┬────────────────┬──────────┬─────────────┐
│ sector_exposur ┆ Technology ┆ Financials ┆ Health Care ┆ Consumer       ┆ Consumer ┆ Industrials │
│ e              ┆ ---        ┆ ---        ┆ ---         ┆ Discretionary  ┆ Staples  ┆ ---         │
│ ---            ┆ f64        ┆ f64        ┆ f64         ┆ ---            ┆ ---      ┆ f64         │
│ str            ┆            ┆            ┆             ┆ f64            ┆ f64      ┆             │
╞════════════════╪════════════╪════════════╪═════════════╪════════════════╪══════════╪═════════════╡
│ Technology=0.2 ┆ 0.207      ┆ 0.09       ┆ 0.084       ┆ 0.069          ┆ null     ┆ null        │
│ 07;Financials= ┆            ┆            ┆             ┆                ┆          ┆             │
│ 0.090;Health   ┆            ┆            ┆             ┆                ┆          ┆             │
│ Care=0.084;Con ┆            ┆            ┆             ┆                ┆          ┆             │
│ sumer Discreti ┆            ┆            ┆             ┆                ┆          ┆             │
│ onary=0.069    ┆            ┆            ┆             ┆                ┆          ┆             │
│ Financials=0.2 ┆ null       ┆ 0.25       ┆ 0.2         ┆ null           ┆ 0.15     ┆ 0.4         │
│ 50;Health Care ┆            ┆            ┆             ┆                ┆          ┆             │
│ =0.200;Consume ┆            ┆            ┆             ┆                ┆          ┆             │
│ r Staples=0.15 ┆            ┆            ┆             ┆                ┆          ┆             │
│ 0;Industrials= ┆            ┆            ┆             ┆                ┆          ┆             │
│ 0.400          ┆            ┆            ┆             ┆                ┆          ┆             │
└────────────────┴────────────┴────────────┴─────────────┴────────────────┴──────────┴─────────────┘

Neste você faz uma “rodada” de divisão no ponto e vírgula e depois explode. Então você divide novamente em igualdade, mas transforma isso em uma estrutura que você desaninha. A partir daí você dinamiza os setores até colunas.

Se os setores existissem na mesma ordem, você poderia usar str.extract_groups, mas com ordens variadas, não acho que funcione.

Cameron Riddell · Answer 2 · 2024-04-10T05:31:22+08:00

Como foi mencionado em outro comentário, você pode realizar algumas substituições para tratar esses valores como json. Isso ajudará se você não tiver uma lista de todos os campos possíveis com antecedência:

import polars as pl
from polars import col

df = pl.DataFrame(
    [
        pl.Series("sector_exposure", [
            'Technology=0.207;Financials=0.090;Health Care=0.084;Consumer Discretionary=0.069',
            'Financials=0.250;Health Care=0.200;Consumer Staples=0.150;Industrials=0.400'
            ], dtype=pl.String),
    ]
)

print(
    df.select(
        pl.format(
            '{{}}',
            col('sector_exposure').str.replace_many([';', '=',], [',', ':'])
            .str.replace_all(r'([a-zA-Z ]+)', r'"$1"')
        )
        .str.json_decode()
        .name.keep()
    )
    .unnest('sector_exposure')
)
# shape: (2, 6)
# ┌────────────┬────────────┬─────────────┬────────────────────────┬──────────────────┬─────────────┐
# │ Technology ┆ Financials ┆ Health Care ┆ Consumer Discretionary ┆ Consumer Staples ┆ Industrials │
# │ ---        ┆ ---        ┆ ---         ┆ ---                    ┆ ---              ┆ ---         │
# │ f64        ┆ f64        ┆ f64         ┆ f64                    ┆ f64              ┆ f64         │
# ╞════════════╪════════════╪═════════════╪════════════════════════╪══════════════════╪═════════════╡
# │ 0.207      ┆ 0.09       ┆ 0.084       ┆ 0.069                  ┆ null             ┆ null        │
# │ null       ┆ 0.25       ┆ 0.2         ┆ null                   ┆ 0.15             ┆ 0.4         │
# └────────────┴────────────┴─────────────┴────────────────────────┴──────────────────┴─────────────┘

Como descompactar uma string em várias colunas em um DataFrame Polars usando expressões?

Extrato Regex

Dividir e girar

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Como descompactar uma string em várias colunas em um DataFrame Polars usando expressões?

2 respostas

Extrato Regex

Dividir e girar

relate perguntas