mooski提出的问题 -coding

mooski

Asked: 2025-04-03 02:36:14 +0800 CST

Como filtrar com eficiência valores específicos de um conjunto de dados e agrupar esses valores filtrados com base em suas contagens para um gráfico

Tenho um grande conjunto de dados (mais de 5 milhões de registros) de crimes de NYC. Quero selecionar 5 crimes da coluna 'OFNS_DESC' e agrupar os crimes de acordo com o número de ocorrências em um mês para que eu possa traçar uma série temporal de forma mais eficiente.

conjunto de dados de amostra

Atualmente, tenho o seguinte. O problema é que demora um pouco para calcular porque, para cada valor, ele passa por todo o conjunto de dados e faz o mesmo para o agrupamento. Quero tornar esse processo mais eficiente

# convert ARREST_DATE format to YYYY/MM
arrest_ym = df["ARREST_DATE"].dt.to_period('M')

# filter out crime types
dngr_drug = df[df["OFNS_DESC"] == "DANGEROUS DRUGS"]
aslt3 = df[df["OFNS_DESC"] == "ASSAULT 3 & RELATED OFFENSES"]
pt_lrcy = df[df["OFNS_DESC"] == "PETIT LARCENY"]
flny_aslt = df[df["OFNS_DESC"] == "FELONY ASSAULT"]
dngr_wpns = df[df["OFNS_DESC"] == "DANGEROUS WEAPONS"]

# group and count 
dngr_drug_gc = dngr_drug.groupby(arrest_ym)["OFNS_DESC"].count()
aslt3_gc = aslt3.groupby(arrest_ym)["OFNS_DESC"].count()
pt_lrcy_gc = pt_lrcy.groupby(arrest_ym)["OFNS_DESC"].count()
flny_aslt_gc = flny_aslt.groupby(arrest_ym)["OFNS_DESC"].count()
dngr_wpns_gc = dngr_wpns.groupby(arrest_ym)["OFNS_DESC"].count()

Abaixo está o código para meu gráfico. Acredito que ele seria afetado com base nas alterações feitas acima.

# multi-line plot
x_labels = dngr_drug_gc.index.astype(str)

plt.figure(figsize = (20, 10))
plt.plot(dngr_drug_gc.index.astype(str), dngr_drug_gc.values, 'b-', label = "Dangerous Drugs")
plt.plot(aslt3_gc.index.astype(str), aslt3_gc.values, 'g-', label = "Assault 3 & Related Offenses")
plt.plot(pt_lrcy_gc.index.astype(str), pt_lrcy_gc.values, 'r-', label = "Petit Larceny")
plt.plot(flny_aslt_gc.index.astype(str), flny_aslt_gc.values, 'c-', label = "Felony Assault")
plt.plot(dngr_wpns_gc.index.astype(str), dngr_wpns_gc.values, 'm-', label = "Dangerous Weapons")

plt.xticks(x_labels[::6], rotation=45)

plt.xlabel("Month")
plt.ylabel("Crime Count")
plt.title("Monthly Crime Frequency")
plt.legend(loc = "best")

Meus resultados estão bons, mas eu só quero otimizar o código. Uma maneira que vi foi fazer o código abaixo, mas não sei como prosseguir a partir daí.

crime_select = ["DANGEROUS DRUGS", "ASSAULT 3 & RELATED OFFENSES", "PETIT LARCENY", "FELONY ASSAULT", "DANGEROUS WEAPONS"]
filtered_crime = df[df["OFNS_DESC"].isin(crime_select)]

Por favor, tenha em mente que sou completamente novo em codificação, então qualquer explicação seria muito útil. Obrigado.

gráfico de resultados

Como filtrar com eficiência valores específicos de um conjunto de dados e agrupar esses valores filtrados com base em suas contagens para um gráfico

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

mooski's questions