Como divido o loop for em 3 quadros de dados individuais?

Question

Bijan

Asked: 2024-09-04 02:32:34 +0800 CST2024-09-04 02:32:34 +0800 CST 2024-09-04 02:32:34 +0800 CST

Verifique se a série tem valores no intervalo

772

Tenho um dataframe do Pandas que contém informações do usuário e também uma coluna para suas permissões:

UserName    Permissions
John Doe             02
John Doe             11
 Example             09
 Example             08
   User3             11

Estou tentando criar uma nova coluna chamada User Classque é baseada em suas Permissões (olhando para todas as permissões dos usuários). Se um usuário tiver todas as permissões <10, ele será considerado Admin. Se um usuário tiver todas as permissões >=10, ele será considerado User. No entanto, se ele tiver permissões que sejam <10 e >=10, ele será codificado como Admin/User. Então, minha saída resultante seria:

UserName    Permissions    User Class
John Doe             02    Admin/User
John Doe             11    Admin/User
 Example             09         Admin
 Example             08         Admin
   User3             11          User

Qual seria a melhor maneira de fazer isso? Minha ideia original era fazer:

for UserName, User_df in df.groupby(by='UserName'):
    LT10 = (User_df['Permissions'] < 10).any()
    GTE10 = (User_df['Permissions'] >= 10).any()
    if (LT10 & GTE10):
        UserClass = 'Admin/User'
    elif LT10:
        UserClass = 'Admin'
    elif GTE10:
        UserClass = 'User'
    df.at[User_df.index, 'User Class'] = UserClass

No entanto, isso parece muito ineficiente porque dftem cerca de 800 mil registros

3 respostas

Voted

Dogbert · Answer 1 · 2024-09-04T02:41:12+08:00

Dogbert

2024-09-04T02:41:12+08:002024-09-04T02:41:12+08:00

Agrupe pelo nome de usuário e use transformpara calcular os valores de permissão min/max por grupo. Então use isso para calcular User Classusando np.select:

import numpy as np
import pandas as pd

data = {
    "UserName": ["John Doe", "John Doe", "Example", "Example", "User3"],
    "Permissions": [2, 11, 9, 8, 11],
}

df = pd.DataFrame(data)

permissions = df.groupby("UserName")["Permissions"]
min_permission = permissions.transform("min")
max_permission = permissions.transform("max")

df["User Class"] = np.select(
    [
        (min_permission < 10) & (max_permission < 10),
        (min_permission >= 10) & (max_permission >= 10),
    ],
    ["Admin", "User"],
    default="Admin/User",
)

print(df)

Saída:

   UserName  Permissions  User Class
0  John Doe            2  Admin/User
1  John Doe           11  Admin/User
2   Example            9       Admin
3   Example            8       Admin
4     User3           11        User

4

PaulS · Answer 2 · 2024-09-04T02:45:38+08:00

Best Answer

PaulS

2024-09-04T02:45:38+08:002024-09-04T02:45:38+08:00

Outra solução possível:

df['User Class'] = (
    df.groupby('UserName')['Permissions']
    .transform(lambda x: 'Admin' if (x < 10).all() else 
               'User' if (x >= 10).all() else 'Admin/User'))

Saída:

   UserName  Permissions  User Class
0  John Doe            2  Admin/User
1  John Doe           11  Admin/User
2   Example            9       Admin
3   Example            8       Admin
4     User3           11        User

4

mozway · Answer 3 · 2024-09-04T04:00:36+08:00

mozway

2024-09-04T04:00:36+08:002024-09-04T04:00:36+08:00

Eu usaria pandas.cutpara mapear os valores para Admin/Usuário e groupby.transformcombinar as classes:

df['User Class'] = (
 pd.cut(df['Permissions'], bins=[0, 10, np.inf],
        labels=['Admin', 'User'], right=False)
   .groupby(df['UserName'])
   .transform(lambda x: '/'.join(sorted(x.unique())))
 )

Saída:

   UserName  Permissions  User Class
0  John Doe            2  Admin/User
1  John Doe           11  Admin/User
2   Example            9       Admin
3   Example            8       Admin
4     User3           11        User

1

Verifique se a série tem valores no intervalo

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Verifique se a série tem valores no intervalo

3 respostas

relate perguntas