Como divido o loop for em 3 quadros de dados individuais?

Question

Andi

Asked: 2024-11-11 18:34:04 +0800 CST2024-11-11 18:34:04 +0800 CST 2024-11-11 18:34:04 +0800 CST

Polars read_excel adiciona incorretamente sufixo aos nomes das colunas

772

Estou usando o polars v1.12.0 para ler dados de uma planilha do Excel.

pl.read_excel(
    "test.xlsx",
    sheet_name="test",
    has_header=True,
    columns=list(range(30, 49))
)

As colunas solicitadas estão sendo importadas corretamente. No entanto, o polars adiciona um sufixo _1a cada nome de coluna. Há um cabeçalho de coluna onde um _3foi adicionado.

Nas colunas solicitadas, todos os cabeçalhos de coluna são únicos, ou seja, sem duplicatas. No entanto, as colunas antes desta área de importação têm os mesmos valores. Por exemplo, o cabeçalho que foi sufixado _3ocorre duas vezes antes da minha área de importação.

Parece que o Polars está escaneando todos os cabeçalhos de coluna a partir da coluna "A", não importa se eu começo a ler a partir da coluna "AE".

Estou me perguntando o que está acontecendo? Isso é um bug ou eu cometi um erro?

1 respostas

Voted

Teemu Risikko · Answer 1 · 2024-11-11T21:56:19+08:00

Não acho que você tenha cometido um erro, o comportamento parece apenas diferir muito entre os diferentes mecanismos, e nenhum deles faz o que você quer fazer.

Tenho o seguinte excel:

alpha | bravo | charlie | charlie | delta | echo | foxtrot | alfa
    1 |     a |       1 |       a |     1 |    a |       1 |    a

Para o seguinte trecho de código:

    df = pl.read_excel(
        "test.xlsx",
        sheet_name="test",
        has_header=True,
        columns=[3, 4, 5, 6, 7],
    )

Aqui está o que obtenho ao usar diferentes mecanismos do Excel:

Calamina (padrão)

┌───────────┬───────┬──────┬─────────┬────────┐
│ charlie_1 ┆ delta ┆ echo ┆ foxtrot ┆ alfa_1 │
│ ---       ┆ ---   ┆ ---  ┆ ---     ┆ ---    │
│ str       ┆ i64   ┆ str  ┆ i64     ┆ str    │
╞═══════════╪═══════╪══════╪═════════╪════════╡
│ a         ┆ 1     ┆ a    ┆ 1       ┆ a      │
└───────────┴───────┴──────┴─────────┴────────┘

Então a sequência parece ser:

Leia todas as colunas, adicionando sufixo às duplicatas
Selecione apenas as colunas mencionadas emcolumns

Xlsx2csv (padrão anterior)

┌─────────┬───────────────────┐
│ foxtrot ┆ alfa_duplicated_0 │
│ ---     ┆ ---               │
│ i64     ┆ str               │
╞═════════╪═══════════════════╡
│ 1       ┆ a                 │
└─────────┴───────────────────┘

Sim, sério, ele está removendo charlie, delta e echo completamente. Acho que é um bug direto. Se você começar a indexação do 0 e listar todas as colunas, ele mostra todas as colunas, mas se você começar do 1, ele já remove alfaAND bravo.

Openpyxl

┌───────┬──────┬─────────┐
│ delta ┆ echo ┆ foxtrot │
│ ---   ┆ ---  ┆ ---     │
│ i64   ┆ str  ┆ i64     │
╞═══════╪══════╪═════════╡
│ 1     ┆ a    ┆ 1       │
└───────┴──────┴─────────┘

Isso agora está descartando todas as colunas com os nomes duplicados primeiro e, em seguida, pegando os índices de coluna definidos em columns. A rigor, nem mesmo descartando, mas

primeiro pegando-os e mantendo a ordem das colunas
então substituindo dados de coluna duplicados pela última coluna do mesmo nome
filtrando colunas com base nos índices columnssem levar em conta os nomes duplicados

As colunas 3, 4 e 5 agora são delta, echo foxtrot, e 6 e 7 não apontam para lugar nenhum.

O que fazer

Então, com base nisso, acho que sua melhor aposta é usar o calaminemecanismo padrão e então substituir manualmente as colunas:

df.columns = ["charlie", "delta", "echo", "foxtrot", "alfa"]

Quanto ao seu dilema nos comentários sobre empilhar as colunas com nomes diferentes, isso "funciona", mas somente quando você conhece os nomes das colunas e o esquema de antemão. Também é estupidamente feio e provavelmente não tem muito desempenho. Espero que haja maneiras melhores.

Em qualquer caso, uma solução como ler todas as colunas do Excel e depois manipular o df é provavelmente mais fácil do que tentar manipular o leitor.

import polars as pl

df = pl.read_excel(
    "test.xlsx",
    sheet_name="test",
    has_header=True,
)


new_df = pl.DataFrame(
    schema={"alfa": pl.Int64, "bravo": pl.Int64, "charlie": pl.Int64})

n = 3

for i in range(0, len(df.columns) // n):
    slice = df.select(pl.nth(range(i * n, i * final_columns + n)))
    slice.columns = ["alfa", "bravo", "charlie"]

    new_df = new_df.vstack(
        slice,
    )

Polars read_excel adiciona incorretamente sufixo aos nomes das colunas

Calamina (padrão)

Xlsx2csv (padrão anterior)

Openpyxl

O que fazer

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Polars read_excel adiciona incorretamente sufixo aos nomes das colunas

1 respostas

Calamina (padrão)

Xlsx2csv (padrão anterior)

Openpyxl

O que fazer

relate perguntas