Como divido o loop for em 3 quadros de dados individuais?

Question

Stephen

Asked: 2025-04-17 01:58:39 +0800 CST2025-04-17 01:58:39 +0800 CST 2025-04-17 01:58:39 +0800 CST

Grupos semelhantes a pandas polares salvam em arquivos por cada valor

772

Resumindo um problema maior ao essencial, eu gostaria de fazer o seguinte:

import numpy as np
import pandas as pd

df = pd.DataFrame({'a': np.random.randint(0, 5, 1000), 'b': np.random.random(1000)})

for aval, subdf in df.groupby('a'):
    subdf.to_parquet(f'/tmp/{aval}.parquet')

em Polares usando LazyFrame:

import numpy as np
import pandas as pd
import polars as pl

df = pd.DataFrame({'a': np.random.randint(0, 5, 1000), 'b': np.random.random(1000)})

lf = pl.LazyFrame(df)
# ???

Gostaria de poder controlar o nome dos arquivos de saída de maneira semelhante.

Obrigado!

3 respostas

Voted

jqurious · Answer 1 · 2025-04-17T02:25:55+08:00

Best Answer

jqurious

2025-04-17T02:25:55+08:002025-04-17T02:25:55+08:00

Você pode usar um esquema de particionamento, por exemploPartitionByKey()

lf.sink_parquet(
    pl.PartitionByKey("/tmp/output", by="a"),
    mkdir = True
)

No seu exemplo, isso cria:

/tmp/output
/tmp/output/a=0
/tmp/output/a=0/0.parquet
/tmp/output/a=1
/tmp/output/a=1/0.parquet
/tmp/output/a=2
/tmp/output/a=2/0.parquet
/tmp/output/a=3
/tmp/output/a=3/0.parquet
/tmp/output/a=4
/tmp/output/a=4/0.parquet

Os documentos mostram um exemplo de file_path=uso com um retorno de chamada para personalizar ainda mais o nome do arquivo, se necessário.

2

poisoned_monkey · Answer 2 · 2025-04-17T02:27:29+08:00

poisoned_monkey

2025-04-17T02:27:29+08:002025-04-17T02:27:29+08:00

Tente fazer isso com LazyFrameewrite_parquet()

import numpy as np
import pandas as pd
import polars as pl

df = pd.DataFrame({
    'a': np.random.randint(0, 5, 1000),
    'b': np.random.random(1000)
})

lf = pl.LazyFrame(df)

df_eager = lf.collect()

for aval, subdf in df_eager.group_by('a'):
    subdf.write_parquet(f'/tmp/{aval}.parquet')

0

lunastarwarp · Answer 3 · 2025-04-17T02:27:36+08:00

lunastarwarp

2025-04-17T02:27:36+08:002025-04-17T02:27:36+08:00

Parece que você provavelmente precisa fazer algo assim:

import numpy as np
import pandas as pd
import polars as pl

df = pd.DataFrame({'a': np.random.randint(0, 5, 1000), 'b': np.random.random(1000)})

lf = pl.LazyFrame(df)

groups = lf.unique(subset=["a"]).select(pl.col("a")).collect().iter_rows()
for group in groups:
    group_lf = lf.filter(pl.col("a") == group[0])
    # ...

0

Grupos semelhantes a pandas polares salvam em arquivos por cada valor

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Grupos semelhantes a pandas polares salvam em arquivos por cada valor

3 respostas

relate perguntas