Como divido o loop for em 3 quadros de dados individuais?

Question

Bijan

Asked: 2024-09-05 00:51:21 +0800 CST2024-09-05 00:51:21 +0800 CST 2024-09-05 00:51:21 +0800 CST

Pandas Groupby e Filter com base no primeiro registro com data maior que a data específica

772

Tenho um dataframe que mostra detalhes sobre funcionários e o local em que estão e as posições que ocuparam. O dataframe tem colunas para Site Id, Employee ID e StartDate (além de muitos outros campos). Tenho isso classificado por Site e Employee ID ASC e, em seguida, EffectiveDate DESC (o registro mais recente é o primeiro)

Site     EmployeeID         StartDate
   1            123        2024-09-01
   1            123        2024-08-01
   1            123        2024-06-01
   1            123        2024-05-01
   2            100        2024-06-01
   2            100        2024-03-01

Preciso criar uma nova coluna chamada EndDateque é a data do registro anterior menos 1 dia. Estamos mudando para um novo sistema, então só nos importamos com as datas que incluem o intervalo 7/1/24 (ou depois). Então, para meu exemplo df, ficaria assim

Site     EmployeeID         StartDate       EndDate    Import
   1            123        2024-09-01                       Y
   1            123        2024-08-01    2024-08-31         Y
   1            123        2024-06-01    2024-07-31         Y
   1            123        2024-05-01    2024-05-31         N
   2            100        2024-06-01                       Y
   2            100        2024-03-01    2024-05-31         N

E então filtrando paradf['Import'] ='Y'

Minha ideia inicial era iterar df.groupby(by=['Site','EmployeeID'])e usar .iloc[]para obter os próximos valores de data, subtrair 1 dia, verificar se é EndDatemaior que 7/1/24 e, em seguida, definir Importar para You Nconforme necessário. O problema é que este é um conjunto de dados muito grande (~300 mil linhas) e esta operação levaria muito tempo.

2 respostas

Voted

e-motta · Answer 1 · 2024-09-05T00:59:55+08:00

e-motta

2024-09-05T00:59:55+08:002024-09-05T00:59:55+08:00

Converta datas para data e hora, para que você possa groupbyusar ["Site", "EmployeeID"]e transformconforme necessário.

df["StartDate"] = pd.to_datetime(df["StartDate"])
df["EndDate"] = df.groupby(["Site", "EmployeeID"])["StartDate"].transform(
    lambda x: x.shift() - pd.Timedelta(days=1)
)
df["Import"] = np.where((df["EndDate"] > "2024-07-01") | df["EndDate"].isna(), "Y", "N")

   Site  EmployeeID  StartDate    EndDate Import
0     1         123 2024-09-01        NaT      Y
1     1         123 2024-08-01 2024-08-31      Y
2     1         123 2024-06-01 2024-07-31      Y
3     1         123 2024-05-01 2024-05-31      N
4     2         100 2024-06-01        NaT      Y
5     2         100 2024-03-01 2024-05-31      N

2

mozway · Answer 2 · 2024-09-05T00:59:39+08:00

Best Answer

mozway

2024-09-05T00:59:39+08:002024-09-05T00:59:39+08:00

Você pode usar groupby.shift, subtrair 1 dia com Timedelta. Crie a coluna Import com numpy.where:

# ensure datetime
df['StartDate'] = pd.to_datetime(df['StartDate'])

# get previous date per group and remove one day
df['EndDate'] = (df.groupby('Site')['StartDate']
                   .shift().sub(pd.Timedelta('1d'))
                )

# if the date is before 2024-07-01 flag as N, else Y (includes NaNs)
df['Import'] = np.where(df['EndDate'].lt('2024-07-01'), 'N', 'Y')

Saída:

   Site  EmployeeID  StartDate    EndDate Import
0     1         123 2024-09-01        NaT      Y
1     1         123 2024-08-01 2024-08-31      Y
2     1         123 2024-06-01 2024-07-31      Y
3     1         123 2024-05-01 2024-05-31      N
4     2         100 2024-06-01        NaT      Y
5     2         100 2024-03-01 2024-05-31      N

1

Pandas Groupby e Filter com base no primeiro registro com data maior que a data específica

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Pandas Groupby e Filter com base no primeiro registro com data maior que a data específica

2 respostas

relate perguntas