Como divido o loop for em 3 quadros de dados individuais?

Question

DJDuque

Asked: 2024-09-16 01:45:39 +0800 CST2024-09-16 01:45:39 +0800 CST 2024-09-16 01:45:39 +0800 CST

Explodir várias colunas com comprimentos diferentes

772

Eu tenho um dataframe como:

data = {
    "a": [[1], [2], [3, 4], [5, 6, 7]],
    "b": [[], [8], [9, 10], [11, 12]],
}
df = pl.DataFrame(data)
"""
┌───────────┬───────────┐
│ a         ┆ b         │
│ ---       ┆ ---       │
│ list[i64] ┆ list[i64] │
╞═══════════╪═══════════╡
│ [1]       ┆ []        │
│ [2]       ┆ [8]       │
│ [3, 4]    ┆ [9, 10]   │
│ [5, 6, 7] ┆ [11, 12]  │
└───────────┴───────────┘
"""

Cada par de listas pode não ter o mesmo comprimento, e eu quero "truncar" a explosão para a menor das duas listas:

"""
┌─────┬─────┐
│ a   ┆ b   │
│ --- ┆ --- │
│ i64 ┆ i64 │
╞═════╪═════╡
│ 2   ┆ 8   │
│ 3   ┆ 9   │
│ 4   ┆ 10  │
│ 5   ┆ 11  │
│ 6   ┆ 12  │
└─────┴─────┘
"""

Eu estava pensando que talvez eu tivesse que preencher o menor de ambas as listas com Nonepara combinar ambos os comprimentos, e então drop_nulls. Mas eu estava pensando se havia uma abordagem mais direta para isso?

2 respostas

Voted

ouroboros1 · Answer 1 · 2024-09-16T02:11:16+08:00

Best Answer

ouroboros1

2024-09-16T02:11:16+08:002024-09-16T02:11:16+08:00

Aqui está uma abordagem:

min_length = pl.min_horizontal(pl.col('a', 'b').list.len())

out = (df.filter(min_length != 0)
       .with_columns(
           pl.col('a', 'b').list.head(min_length)
           )
       .explode('a', 'b')
       )

Saída:

shape: (5, 2)
┌─────┬─────┐
│ a   ┆ b   │
│ --- ┆ --- │
│ i64 ┆ i64 │
╞═════╪═════╡
│ 2   ┆ 8   │
│ 3   ┆ 9   │
│ 4   ┆ 10  │
│ 5   ┆ 11  │
│ 6   ┆ 12  │
└─────┴─────┘

Explicação

Obtenha o comprimento das listas em ambas as colunas com Expr.list.lene obtenha o menor para cada linha com pl.min_horizontal.
Agora, filtre as linhas onde min_length == 0( df.filter) e dentro df.with_columnsselecione os primeiros n valores de cada lista com Expr.list.head.
Por fim, aplique df.explode.

3

roman · Answer 2 · 2024-09-16T14:45:42+08:00

roman

2024-09-16T14:45:42+08:002024-09-16T14:45:42+08:00

Não consigo colocar nos comentários, então vou colocar outra resposta aqui, pois é um pouco mais genérica para o exemplo dado:

(
    df.with_columns(
        pl.all().list.head(
            pl.min_horizontal(pl.all().list.len())
        )
    ).explode("*")
    .drop_nulls()
)

shape: (5, 2)
┌─────┬─────┐
│ a   ┆ b   │
│ --- ┆ --- │
│ i64 ┆ i64 │
╞═════╪═════╡
│ 2   ┆ 8   │
│ 3   ┆ 9   │
│ 4   ┆ 10  │
│ 5   ┆ 11  │
│ 6   ┆ 12  │
└─────┴─────┘

0

Explodir várias colunas com comprimentos diferentes

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Explodir várias colunas com comprimentos diferentes

2 respostas

relate perguntas