Omar AlSuwaidi提出的问题 -coding

Omar AlSuwaidi

Asked: 2025-04-28 01:21:44 +0800 CST

Como extrair corretamente todas as linhas duplicadas com uma condição em um Polars DataFrame?

Dado um dataframe polar, quero extrair todas as linhas duplicadas e também aplicar uma condição de filtro adicional, por exemplo:

import polars as pl

df = pl.DataFrame({
    "name": ["Alice", "Bob", "Alice", "David", "Eve", "Bob", "Frank"],
    "city": ["NY", "LA", "NY", "SF", "LA", "LA", "NY"],
    "age": [25, 30, 25, 35, 28, 30, 40]
})

# Trying this:
df.filter((df.is_duplicated()) & (pl.col("city") == "NY"))  # error

Entretanto, isso resulta em um erro:

SchemaError: não é possível descompactar séries de tipos objectembool

O que faz alusão que df.is_duplicated()retorna uma série do tipo object, mas na realidade, é uma BooleanSeries.

Surpreendentemente, reordenar os predicados colocando a expressão primeiro faz com que funcione ( mas por quê? ):
df.filter((pl.col("city") == "NY") & (df.is_duplicated())) # works!gera corretamente:

shape: (2, 3)
┌───────┬──────┬─────┐
│ name  ┆ city ┆ age │
│ ---   ┆ ---  ┆ --- │
│ str   ┆ str  ┆ i64 │
╞═══════╪══════╪═════╡
│ Alice ┆ NY   ┆ 25  │
│ Alice ┆ NY   ┆ 25  │
└───────┴──────┴─────┘

Entendo que a abordagem ideal ao filtrar duplicatas com base em um subconjunto de colunas é usar pl.struct, como:
df.filter((pl.struct(df.columns).is_duplicated()) & (pl.col("city") == "NY")) # works
O que funciona bem com a condição de filtro adicional.

No entanto, não estou usando intencionalmente pl.structporque meu dataframe real tem 40 colunas e quero verificar se há linhas duplicadas com base em todas as colunas, exceto três, então fiz o seguinte:
df.filter(df.drop("col1", "col2", "col3").is_duplicated()) O que funciona bem e é muito mais conveniente do que escrever todas as 37 colunas em um arquivo pl.struct. No entanto, isso falha ao adicionar uma condição de filtro adicional à direita, mas não à esquerda :

df.filter(
    (df.drop("col1", "col2", "col3").is_duplicated()) & (pl.col("col5") == "something")
    )  # breaks!

df.filter(
    (pl.col("col5") == "something") & (df.drop("col1", "col2", "col3").is_duplicated())
    )  # works!

Por que a ordem dos predicados (Série e Expressão vs. Expressão e Série) importa.filter()neste caso? Esse é um comportamento intencional em Polars ou um bug?

Omar AlSuwaidi

Asked: 2023-08-27 06:24:44 +0800 CST

Por que converter uma coluna com tipo de dados categórico numérico para um número inteiro em Polars resulta em comportamento inesperado?

Tenho uma Categoricalcoluna chamada decileem meus polares DataFrame df, com seus valores variando de "01" a "10". Ao tentar converter essa coluna em uma representação numérica via: df.with_columns(pl.col('decile').cast(pl.Int8)), os valores convertidos não são mapeados conforme o esperado (ou seja, "01" não é mapeado para 1 e assim por diante), e o intervalo agora também é de 0 a 9, não de 1 a 10.

O estranho é que não importa quais sejam os valores originais da coluna decile, eles sempre serão mapeados inesperadamente e para [0, 9] ao convertê-los em um tipo de dados inteiro.

Estou tentando converter os valores em tipos de dados inteiros para fins de plotagem.

Aqui está um exemplo reproduzível mínimo:

size = 1e3
df = pl.DataFrame({
    "id": np.random.randint(50, size=int(size), dtype=np.uint16),
    "amount": np.round(np.random.uniform(10, 100000, int(size)).astype(np.float32), 2),
    "quantity": np.random.randint(1, 7, size=int(size), dtype=np.uint16),
})
df = (df
      .groupby("id")
      .agg(revenue=pl.sum("amount"), tot_quantity=pl.sum("quantity"))
     )
df = (df.with_columns(
    pl.col('revenue')
    .qcut(10, labels=[f'q{i:02}' for i in range(10, 0, -1)])
    .alias("decile")
))

Como fazer com que a conversão seja adequada (como seria de esperar que os valores fossem mapeados) e no mesmo intervalo dos valores originais?

Como extrair corretamente todas as linhas duplicadas com uma condição em um Polars DataFrame?

Por que converter uma coluna com tipo de dados categórico numérico para um número inteiro em Polars resulta em comportamento inesperado?

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Omar AlSuwaidi's questions