AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / coding / Perguntas / 78532299
Accepted
HJA24
HJA24
Asked: 2024-05-25 19:28:05 +0800 CST2024-05-25 19:28:05 +0800 CST 2024-05-25 19:28:05 +0800 CST

Como agrupar linhas do pandas usando o oposto da metodologia pandas.groupby

  • 772

Eu tenho o seguintepandas.DataFrame

   match_id  court
0  50311513      1
1  50313011      2
2  50313009      2
3  50317691      1
4  50315247      2
5  50318597      1
6  50318877      1
7  50318983      1
8  50318831      1
9  50318595      1

Como você pode ver, há um total de 2cursos. Quero agrupar cada "slot". Portanto, o primeiro df agrupado deve conter match 50311513e 50313011. O segundo slot deve conter 50313009e 50317691. Após o terceiro slot, o df agrupado é basicamente uma única linha.

Como posso saber pandas.groupby()que apenas uma partida pode ser disputada no campo?

Obrigado

Editar

Dados de entrada diferentes:

     match_id  court  group
0    46768193      1     0
1    46768193      1     1
2    46768187      2     0
3    46768187      2     1
4    46767821      3     0
python
  • 1 1 respostas
  • 56 Views

1 respostas

  • Voted
  1. Best Answer
    mozway
    2024-05-25T19:40:22+08:002024-05-25T19:40:22+08:00

    IIUC, você pode formar dois grupos sucessivos com cumcount:

    # start new group on identical values
    g1 = df['court'].eq(df['court'].shift()).cumsum()
    # in the previous groups, restart if the value was already seen
    g2 = df['court'].groupby([df['court'], g1]).cumcount()
    
    df['group'] = df.groupby([g1, g2]).ngroup()
    
    # variant
    # df['group'] = (g1.diff().ne(0)|g2.diff().ne(0)).cumsum().sub(1)
    

    Saída:

       match_id  court  group
    0  50311513      1      0
    1  50313011      2      0
    2  50313009      2      1
    3  50317691      1      1
    4  50315247      2      2
    5  50318597      1      2
    6  50318877      1      3
    7  50318983      1      4
    8  50318831      1      5
    9  50318595      1      6
    

    Intermediários:

       match_id  court  g1  g2  group
    0  50311513      1   0   0      0
    1  50313011      2   0   0      0
    2  50313009      2   1   0      1
    3  50317691      1   1   0      1
    4  50315247      2   1   1      2
    5  50318597      1   1   1      2
    6  50318877      1   2   0      3
    7  50318983      1   3   0      4
    8  50318831      1   4   0      5
    9  50318595      1   5   0      6
    

    generalização

    Se precisar lidar com mais grupos, você pode usar uma função personalizada (iterativa) com um conjunto para controlar os itens já vistos. Se o conjunto de itens vistos anteriormente já contém o item atual, inicie um novo grupo:

    def grouper(s):
        S = set()
        group = []
        n = 0
        for val in s:
            if val in S:
                n += 1
                S = {val}
            else:
                S.add(val)
            group.append(n)
        return group
    
    df['group'] = grouper(df['court'])
    

    Exemplo:

        match_id  court  group
    0   50311513      1      0
    1   50313011      2      0
    2   50313012      3      0
    3   50313009      2      1
    4   50317691      1      1
    5   50315247      2      2
    6   50315248      3      2
    7   50318597      1      2
    8   50318877      1      3
    9   50318983      1      4
    10  50319873      3      4
    11  50318831      1      5
    12  50318595      1      6
    
    • 4

relate perguntas

  • Como divido o loop for em 3 quadros de dados individuais?

  • Como verificar se todas as colunas flutuantes em um Pandas DataFrame são aproximadamente iguais ou próximas

  • Como funciona o "load_dataset", já que não está detectando arquivos de exemplo?

  • Por que a comparação de string pandas.eval() retorna False

  • Python tkinter/ ttkboostrap dateentry não funciona quando no estado somente leitura

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

    • 1 respostas
  • Marko Smith

    Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

    • 1 respostas
  • Marko Smith

    Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

    • 1 respostas
  • Marko Smith

    Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

    • 6 respostas
  • Marko Smith

    `(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

    • 3 respostas
  • Marko Smith

    Quando devo usar um std::inplace_vector em vez de um std::vector?

    • 3 respostas
  • Marko Smith

    Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

    • 1 respostas
  • Marko Smith

    PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

    • 2 respostas
  • Marko Smith

    AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

    • 1 respostas
  • Marko Smith

    Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

    • 1 respostas
  • Martin Hope
    Aleksandr Dubinsky Por que a correspondência de padrões com o switch no InetAddress falha com 'não cobre todos os valores de entrada possíveis'? 2024-12-23 06:56:21 +0800 CST
  • Martin Hope
    Phillip Borge Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle? 2024-12-12 20:46:46 +0800 CST
  • Martin Hope
    Oodini Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores? 2024-12-12 06:27:11 +0800 CST
  • Martin Hope
    sleeptightAnsiC `(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso? 2024-11-09 07:18:53 +0800 CST
  • Martin Hope
    The Mad Gamer Quando devo usar um std::inplace_vector em vez de um std::vector? 2024-10-29 23:01:00 +0800 CST
  • Martin Hope
    Chad Feller O ponto e vírgula agora é opcional em condicionais bash com [[ .. ]] na versão 5.2? 2024-10-21 05:50:33 +0800 CST
  • Martin Hope
    Wrench Por que um traço duplo (--) faz com que esta cláusula MariaDB seja avaliada como verdadeira? 2024-05-05 13:37:20 +0800 CST
  • Martin Hope
    Waket Zheng Por que `dict(id=1, **{'id': 2})` às vezes gera `KeyError: 'id'` em vez de um TypeError? 2024-05-04 14:19:19 +0800 CST
  • Martin Hope
    user924 AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos 2024-03-20 03:12:31 +0800 CST
  • Martin Hope
    MarkB Por que o GCC gera código que executa condicionalmente uma implementação SIMD? 2024-02-17 06:17:14 +0800 CST

Hot tag

python javascript c++ c# java typescript sql reactjs html

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve