Preenchendo valores ausentes no dataframe do Pandas usando outro dataframe

Question

cicciodevoto

Asked: 2023-12-24 02:00:47 +0800 CST2023-12-24 02:00:47 +0800 CST 2023-12-24 02:00:47 +0800 CST

Agrupar dataframe do pandas por hora e dia

772

Eu tenho um dataframe cobrindo um mês de texto com carimbo de data/hora, mais ou menos assim:

timestamp              text
2023-01-01 00:00:00    ABC
2023-01-01 00:00:01    DEF
2023-01-01 00:00:01    GHI
...

Gostaria de contar a quantidade de texto para cada hora e para cada dia da semana, para ter no final 168 (24*7) números.

Por exemplo se no dia 01-01-2023, que é domingo, entre as 10h e as 11h há 10 textos, no domingo seguinte (08-01-2023) sempre entre as 10h e as 11h há 15 textos, e assim sucessivamente. No final o número de todos os textos para todos os domingos entre as 10h e as 11h é: 10+15+...

Quero fazer isso para cada hora e para cada dia da semana.

Se o dataframe original for df, comecei a agrupar por horas:

hours_df = df.groupby(pd.Grouper(key="timestamp", freq="h")).size().reset_index(name="count_hours")

então adicionei o day_of_week:

hours_df["day_of_week"] = hours_df["timestamp"].dt.dayofweek

mas se eu agrupar agora desta day_of_weekforma:

day_df = hours_df.groupby("day_of_week").size().reset_index(name="count_days")

Vou perder a informação das horas e o resultado é um dataframe com 7 entradas, ou seja, os dias.

Como posso combinar o agrupamento das horas com o dos dias?

1 respostas

Voted

mozway · Answer 1 · 2023-12-24T02:23:26+08:00

Você pode agrupar diretamente por dia da semana e hora:

df.groupby([df['timestamp'].dt.dayofweek.rename('dow'),
            df['timestamp'].dt.hour.rename('hour')
           ]).size()

Ou usando concate value_counts:

pd.concat([df['timestamp'].dt.dayofweek.rename('dow'),
           df['timestamp'].dt.hour.rename('hour')], axis=1
         ).value_counts()

Saída:

dow  hour
6    0       3
dtype: int64

Nota. para uma entrada longa o suficiente, você deve ter todas as combinações; caso contrário, sempre poderá reindex.

Alternativamente, para uma saída retangular, use crosstab:

pd.crosstab(df['timestamp'].dt.dayofweek.rename('dow'),
            df['timestamp'].dt.hour.rename('hour'))

# or for all values:
out = (pd.crosstab(df['timestamp'].dt.dayofweek.rename('dow'),
                   df['timestamp'].dt.hour.rename('hour'))
         .reindex(index=range(1, 7), columns=range(24), fill_value=0)
      )

Saída:

hour  0   1   2   3   4   5   6   7   8   9   10  11  12  13  14  15  16  17  18  19  20  21  22  23
dow                                                                                                 
1      0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
2      0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
3      0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
4      0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
5      0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
6      3   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0

Agrupar dataframe do pandas por hora e dia

destaque o código em HTML usando <font color="#xxx">

Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}?

Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)?

Por que as compreensões de lista criam uma função internamente?

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)?

Por que o construtor de uma variável global não é chamado em uma biblioteca?

Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto?

Somente operações bit a bit para std::byte em C++ 17?

Agrupar dataframe do pandas por hora e dia

1 respostas

relate perguntas