AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / coding / Perguntas / 77369441
Accepted
wedrano de carvalho
wedrano de carvalho
Asked: 2023-10-27 02:13:11 +0800 CST2023-10-27 02:13:11 +0800 CST 2023-10-27 02:13:11 +0800 CST

grupo polars retornando um valor quando os filtros não correspondem

  • 772

digamos que eu tenha esse dataframe polar

df = pl.DataFrame(
   {
      "group_col": ["g1", "g1", "g2"],
      "b": [1, 2, 3],
      "c": [4, 5, 6]
   }
)

saída

shape: (3, 3)
┌───────────┬─────┬─────┐
│ group_col ┆ b   ┆ c   │
│ ---       ┆ --- ┆ --- │
│ str       ┆ i64 ┆ i64 │
╞═══════════╪═════╪═════╡
│ g1        ┆ 1   ┆ 4   │
│ g1        ┆ 2   ┆ 5   │
│ g2        ┆ 3   ┆ 6   │
└───────────┴─────┴─────┘

eu preciso fazer um grupo assim:

df.group_by("group_col").agg(
    [
        pl.col("c").filter((pl.col("b") >= 1) & (pl.col('b').max() == pl.col('b'))).max().alias("gte"),
    ]
)

saída:

shape: (2, 2)
┌───────────┬─────┐
│ group_col ┆ gte │
│ ---       ┆ --- │
│ str       ┆ i64 │
╞═══════════╪═════╡
│ g1        ┆ 5   │
│ g2        ┆ 6   │
└───────────┴─────┘

neste caso, por que o valor da coluna gte do grupo g1 não é nulo? dado o & (pl.col('b').max() == pl.col('b'))filtro?

python-polars
  • 2 2 respostas
  • 37 Views

2 respostas

  • Voted
  1. Best Answer
    Dean MacGregor
    2023-10-27T02:37:20+08:002023-10-27T02:37:20+08:00

    Qualquer que seja o group_by, limita o que o agg vê apenas ao que está em cada grupo.

    Experimente isto:

    (
        df
        .group_by('group_col')
        .agg(
            pl.all().max().suffix("max"), 
            pl.all().min().suffix("min")
            )
    )
    shape: (2, 5)
    ┌───────────┬──────┬──────┬──────┬──────┐
    │ group_col ┆ bmax ┆ cmax ┆ bmin ┆ cmin │
    │ ---       ┆ ---  ┆ ---  ┆ ---  ┆ ---  │
    │ str       ┆ i64  ┆ i64  ┆ i64  ┆ i64  │
    ╞═══════════╪══════╪══════╪══════╪══════╡
    │ g1        ┆ 2    ┆ 5    ┆ 1    ┆ 4    │
    │ g2        ┆ 3    ┆ 6    ┆ 3    ┆ 6    │
    └───────────┴──────┴──────┴──────┴──────┘
    

    Como você pode ver, para o grupo g1, o cmax é 5 porque é o máximo no contexto desse grupo. Então, quando você obtém gte como 5 para g1, é porque a coluna b está no máximo 2 para esse grupo.

    Parece que o que você quer é algo como:

    (
        df
        .filter((pl.col('b').max() == pl.col('b')))
        .group_by("group_col")
        .agg( 
            pl.col("c").filter(pl.col("b") >= 1).max().alias("gte"),
        
        )
    )
    shape: (1, 2)
    ┌───────────┬─────┐
    │ group_col ┆ gte │
    │ ---       ┆ --- │
    │ str       ┆ i64 │
    ╞═══════════╪═════╡
    │ g2        ┆ 6   │
    └───────────┴─────┘
    

    mas você deseja que g1 seja retornado com um valor nulo. Para conseguir isso, você teria que configurar um df com suas linhas padrão e, em seguida, juntar o resultado anterior ao resultado anterior, como:

    (
        df.select('group_col').unique()
        .join(
            df
            .filter((pl.col('b').max() == pl.col('b')) & (pl.col("b") >= 1))
            .group_by("group_col",maintain_order=True)
            .agg( 
                pl.col("c").max().alias("gte"),
            
            ),
        on='group_col', how='left'
        )
        .sort('group_col')
    )
    shape: (2, 2)
    ┌───────────┬──────┐
    │ group_col ┆ gte  │
    │ ---       ┆ ---  │
    │ str       ┆ i64  │
    ╞═══════════╪══════╡
    │ g1        ┆ null │
    │ g2        ┆ 6    │
    └───────────┴──────┘
    
    • 1
  2. jqurious
    2023-10-27T03:54:35+08:002023-10-27T03:54:35+08:00

    A primeira .max()comparação precisa ser feita no nível da “coluna”, não no nível do “grupo”:

    (df.with_columns(gte = (pl.col("b") >= 1) & (pl.col("b") == pl.col("b").max()))
       .group_by("group_col")
       .agg(pl.col("c").filter(pl.col("gte")).max())
    )
    
    shape: (2, 2)
    ┌───────────┬──────┐
    │ group_col ┆ c    │
    │ ---       ┆ ---  │
    │ str       ┆ i64  │
    ╞═══════════╪══════╡
    │ g1        ┆ null │
    │ g2        ┆ 6    │
    └───────────┴──────┘
    
    • 1

relate perguntas

  • Polares scan_parquet; existe uma maneira de obter o número de arquivos verificados?

  • Crie uma nova coluna baseada parcialmente em outros nomes de colunas

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    destaque o código em HTML usando <font color="#xxx">

    • 2 respostas
  • Marko Smith

    Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}?

    • 1 respostas
  • Marko Smith

    Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)?

    • 2 respostas
  • Marko Smith

    Por que as compreensões de lista criam uma função internamente?

    • 1 respostas
  • Marko Smith

    Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

    • 1 respostas
  • Marko Smith

    java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

    • 3 respostas
  • Marko Smith

    Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)?

    • 4 respostas
  • Marko Smith

    Por que o construtor de uma variável global não é chamado em uma biblioteca?

    • 1 respostas
  • Marko Smith

    Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto?

    • 1 respostas
  • Marko Smith

    Somente operações bit a bit para std::byte em C++ 17?

    • 1 respostas
  • Martin Hope
    fbrereto Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}? 2023-12-21 00:31:04 +0800 CST
  • Martin Hope
    比尔盖子 Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)? 2023-12-17 10:02:06 +0800 CST
  • Martin Hope
    Amir reza Riahi Por que as compreensões de lista criam uma função internamente? 2023-11-16 20:53:19 +0800 CST
  • Martin Hope
    Michael A formato fmt %H:%M:%S sem decimais 2023-11-11 01:13:05 +0800 CST
  • Martin Hope
    God I Hate Python std::views::filter do C++20 não filtrando a visualização corretamente 2023-08-27 18:40:35 +0800 CST
  • Martin Hope
    LiDa Cute Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)? 2023-08-24 20:46:59 +0800 CST
  • Martin Hope
    jabaa Por que o construtor de uma variável global não é chamado em uma biblioteca? 2023-08-18 07:15:20 +0800 CST
  • Martin Hope
    Panagiotis Syskakis Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto? 2023-08-17 21:24:06 +0800 CST
  • Martin Hope
    Alex Guteniev Por que os compiladores perdem a vetorização aqui? 2023-08-17 18:58:07 +0800 CST
  • Martin Hope
    wimalopaan Somente operações bit a bit para std::byte em C++ 17? 2023-08-17 17:13:58 +0800 CST

Hot tag

python javascript c++ c# java typescript sql reactjs html

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve