Como divido o loop for em 3 quadros de dados individuais?

Question

David Waterworth

Asked: 2024-08-29 12:18:51 +0800 CST2024-08-29 12:18:51 +0800 CST 2024-08-29 12:18:51 +0800 CST

Analisando dados numéricos com separador de milhares em `polars`

772

Tenho um arquivo tsv que contém inteiros com separadores de milhar. Estou tentando lê-lo usando polars==1.6.0, a codificação éutf-16

from io import BytesIO
import polars as pl

data = BytesIO(
"""
Id\tA\tB
1\t537\t2,288
2\t325\t1,047
3\t98\t194
""".encode("utf-16")
)

df = pl.read_csv(data, encoding="utf-16", separator="\t")
print(df)

Não consigo descobrir como fazer com que os polares tratem a coluna "B" como um inteiro em vez de uma string, e também não consigo encontrar uma maneira limpa de convertê-la em um inteiro.

shape: (3, 3)
┌────────┬─────┬───────┐
│ Id     ┆ A   ┆ B     │
│ ---    ┆ --- ┆ ---   │
│ i64    ┆ i64 ┆ str   │
╞════════╪═════╪═══════╡
│ 1      ┆ 537 ┆ 2,288 │
│ 2      ┆ 325 ┆ 1,047 │
│ 3      ┆ 98  ┆ 194   │
└────────┴─────┴───────┘

cast falha, assim como passar o esquema explicitamente. Eu também tentei usar str.strip_charse para remover a vírgula, minha solução alternativa é usar str.replace_allem vez disso.

df = df.with_columns(
    pl.col("B").str.strip_chars(",").alias("B_strip_chars"),
    pl.col("B").str.replace_all("[^0-9]", "").alias("B_replace"),
)
print(df)

shape: (3, 5)
┌────────┬─────┬───────┬───────────────┬───────────┐
│ Id     ┆ A   ┆ B     ┆ B_strip_chars ┆ B_replace │
│ ---    ┆ --- ┆ ---   ┆ ---           ┆ ---       │
│ i64    ┆ i64 ┆ str   ┆ str           ┆ str       │
╞════════╪═════╪═══════╪═══════════════╪═══════════╡
│ 1      ┆ 537 ┆ 2,288 ┆ 2,288         ┆ 2288      │
│ 2      ┆ 325 ┆ 1,047 ┆ 1,047         ┆ 1047      │
│ 3      ┆ 98  ┆ 194   ┆ 194           ┆ 194       │
└────────┴─────┴───────┴───────────────┴───────────┘

Além disso, para que isso funcione em geral, preciso garantir que read_csvele não tente inferir tipos para nenhuma coluna, para que eu possa convertê-los manualmente (qualquer coluna numérica com um valor > 999 conterá uma vírgula)

2 respostas

Voted

user19077881 · Answer 1 · 2024-08-29T15:29:34+08:00

Best Answer

user19077881

2024-08-29T15:29:34+08:002024-08-29T15:29:34+08:00

Para permitir possíveis ,separadores múltiplos, use .str.replace_all:

df = df.with_columns(pl.col('B').str.replace_all(",", "").cast(pl.Int64))

que fornece para os dados da amostra:

   shape: (3, 3)
┌─────┬─────┬──────┐
│ Id  ┆ A   ┆ B    │
│ --- ┆ --- ┆ ---  │
│ i64 ┆ i64 ┆ i64  │
╞═════╪═════╪══════╡
│ 1   ┆ 537 ┆ 2288 │
│ 2   ┆ 325 ┆ 1047 │
│ 3   ┆ 98  ┆ 194  │
└─────┴─────┴──────┘

3

Dean MacGregor · Answer 2 · 2024-08-29T19:14:07+08:00

Dean MacGregor

2024-08-29T19:14:07+08:002024-08-29T19:14:07+08:00

Se seus dados de origem forem utf-16 (ou qualquer coisa além de utf-8), o polars os converterá para utf-8 por meio do python. Como isso precisa acontecer de qualquer maneira, pode ser melhor fazer essa conversão você mesmo e substituir os ","s no meio para que o leitor nativo de csv polars analise os dados como números no read_csvinício em vez de em uma etapa subsequente

data.seek(0)
pl.read_csv(data.read().decode('utf-16').replace(',','').encode('utf-8'), separator="\t")

Só para enfatizar que se seus dados de origem já são utf-8, então fazer o python fazer isso replaceé quase certamente mais lento do que a resposta de @user19077881. Só faça isso se sua origem não for utf-8 porque o polars irá convertê-la para utf-8 em python de qualquer maneira. Claro, se você tem colunas que são supostamente strings com vírgulas, então isso não funciona porque ele não sabe a diferença.

2

Analisando dados numéricos com separador de milhares em `polars`

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Analisando dados numéricos com separador de milhares em `polars`

2 respostas

relate perguntas