Como divido o loop for em 3 quadros de dados individuais?

Question

DJDuque

Asked: 2025-04-02 14:46:59 +0800 CST2025-04-02 14:46:59 +0800 CST 2025-04-02 14:46:59 +0800 CST

Como reamostrar um conjunto de dados para obter uma distribuição uniforme

772

Tenho um conjunto de dados com um esquema como:

df = pl.DataFrame(
    {
        "target": [
            [1.0, 1.0, 0.0],
            [1.0, 1.0, 0.1],
            [1.0, 1.0, 0.2],
            [1.0, 1.0, 0.8],
            [1.0, 1.0, 0.9],
            [1.0, 1.0, 1.0],
        ],
        "feature": ["a", "b", "c", "d", "e", "f"],
    },
    schema={
        "target": pl.Array(pl.Float32, 3),
        "feature": pl.String,
    },
)

Se eu fizer um histograma dos valores alvo-z, ele ficará assim:

Quero reamostrar os dados para que fiquem planos ao longo de z.

Consegui fazer isso de uma forma hacky-multi-steps (também muito lenta). Gostaria de saber se as pessoas poderiam sugerir uma forma mais limpa (e mais eficiente)?

O que estou fazendo é:

Encontre as arestas do compartimento do referido histograma:

bins = 2 # Use e.g. 100 or larger in reality
z = df.select(z=pl.col("target").arr.get(2))
z_min = z.min()
z_max = z.max()
breaks = np.linspace(z_min, z_max, num=bins+1)

Descubra quantas contagens estão no compartimento com o menor número de contagens:

counts = (
    df.with_columns(bin=pl.col("target").arr.get(2).cut(breaks))
    .with_columns(counter=pl.int_range(pl.len()).over("bin"))
    .group_by("bin")
    .agg(pl.col("counter").max())
    .filter(pl.col("counter") > 0)  # <- Nasty way of filtering the (-inf, min] bin
    .select(pl.col("counter").min())
).item()

Selecione apenas os elementos "count" em cada bin:

df = (
    df.with_columns(bin=pl.col("target").arr.get(2).cut(breaks))
    .with_columns(counter=pl.int_range(pl.len()).over("bin"))
    .filter(pl.col("counter") <= counts)
    .select("target", "feature")
)

Isso me dá:

As pessoas têm alguma sugestão?

1 respostas

Voted

etrotta · Answer 1 · 2025-04-03T00:14:06+08:00

Não acho que você possa evitar essas três etapas para reamostragem (embora, dependendo do seu caso de uso, você possa tentar transformar os dados)

Você pode otimizar um pouco esse código,

import polars as pl
import numpy as np

# Some random mocked data
rng = np.random.default_rng()
df = pl.DataFrame({'z': rng.lognormal(size=100_000) - 0.5}).filter(pl.col('z').is_between(0.0, 1.0))

z = pl.col('z')

# Create the bins using polars, and only once
cuts = df.select(pl.linear_space(z.min(), z.max(), 99, closed='none'))['z']
df = df.with_columns(bin=z.cut(cuts))

# just use len() instead of range+max()
counts = (
    df
    .group_by("bin")
    .len()
    .select(pl.col("len").min())
).item()

# take the head of each group or sample
result = (
    df
    .group_by('bin')
     # .head(counts)  # You can just use this instead of .map_groups(...sample(counts)),
     # and head() is closer to what you had in the original, but
     # taking only the head() may bias the data if the order is not random
    .map_groups(lambda df: df.sample(counts))
    .drop('bin')
)
print(result)

Como reamostrar um conjunto de dados para obter uma distribuição uniforme

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Como reamostrar um conjunto de dados para obter uma distribuição uniforme

1 respostas

relate perguntas