Spark: Nenhum implícito encontrado para evidência de parâmetro

Question

Andi

Asked: 2024-07-05 21:19:28 +0800 CST2024-07-05 21:19:28 +0800 CST 2024-07-05 21:19:28 +0800 CST

Fatiando vários pedaços em um dataframe polar

772

Considere o seguinte quadro de dados.

df = pl.DataFrame(data={"col1": range(10)})

┌──────┐
│ col1 │
│ ---  │
│ i64  │
╞══════╡
│ 0    │
│ 1    │
│ 2    │
│ 3    │
│ 4    │
│ 5    │
│ 6    │
│ 7    │
│ 8    │
│ 9    │
└──────┘

Digamos que eu tenha uma lista de tuplas, onde o primeiro valor representa o índice inicial e o segundo valor um valor de comprimento (conforme usado em pl.DataFrame.slice). Isso pode ser assim:

slices = [(1,2), (5,3)]

Agora, qual é uma boa maneira de fatiar/extrair dois pedaços de df, em que a primeira fatia começa na linha 1 e tem comprimento 2, enquanto a segunda parte começa na linha 5 e tem comprimento 3.

Aqui está o que estou procurando:

┌──────┐
│ col1 │
│ ---  │
│ i64  │
╞══════╡
│ 1    │
│ 2    │
│ 5    │
│ 6    │
│ 7    │
└──────┘

1 respostas

Voted

Hericks · Answer 1 · 2024-07-05T21:25:38+08:00

Você poderia usar pl.DataFrame.slicepara obter cada fatia separadamente e depois usar pl.concatpara concatenar todas as fatias.

pl.concat(df.slice(*slice) for slice in slices)

shape: (5, 1)
┌──────┐
│ col1 │
│ ---  │
│ i64  │
╞══════╡
│ 1    │
│ 2    │
│ 5    │
│ 6    │
│ 7    │
└──────┘

Editar. Como uma tentativa de abordagem vetorizada, você poderia primeiro usar a lista de parâmetros de fatia para criar um dataframe de índices (usando pl.int_rangese pl.DataFrame.explode). Posteriormente, este dataframe de índices pode ser usado para fatiar a dfjunção with.

indices = (
    pl.DataFrame(slices, orient="row", schema=["offset", "length"])
    .select(
        index=pl.int_ranges("offset", pl.col("offset") + pl.col("length"))
    )
    .explode("index")
)

shape: (5, 1)
┌───────┐
│ index │
│ ---   │
│ i64   │
╞═══════╡
│ 1     │
│ 2     │
│ 5     │
│ 6     │
│ 7     │
└───────┘

(
    indices
    .join(
        df,
        left_on="index",
        right_on=pl.int_range(pl.len()),
        how="left",
        coalesce=True,
    )
    .drop("index")
)

shape: (5, 1)
┌──────┐
│ col1 │
│ ---  │
│ i64  │
╞══════╡
│ 1    │
│ 2    │
│ 5    │
│ 6    │
│ 7    │
└──────┘

Fatiando vários pedaços em um dataframe polar

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Fatiando vários pedaços em um dataframe polar

1 respostas

relate perguntas