Minha pergunta é se há uma maneira de ter nulo até que a janela completa possa ser preenchida no início de uma janela rolante em polares. Por exemplo:
dates = [
"2020-01-01",
"2020-01-02",
"2020-01-03",
"2020-01-04",
"2020-01-05",
"2020-01-06",
"2020-01-01",
"2020-01-02",
"2020-01-03",
"2020-01-04",
"2020-01-05",
"2020-01-06",
]
df = pl.DataFrame({"dt": dates, "a": [3, 4, 2, 8, 10, 1, 1, 7, 5, 9, 2, 1], "b": ["Yes","Yes","Yes","Yes","Yes", "Yes", "No", "No", "No", "No", "No", "No"]}).with_columns(
pl.col("dt").str.strptime(pl.Date).set_sorted()
)
df = df.sort(by = 'dt')
df.rolling(
index_column="dt", period="2d", group_by = 'b'
).agg(pl.col("a").mean().alias("ma_2d"))
Resultado
b dt ma_2d
str date f64
"Yes" 2020-01-01 3.0
"Yes" 2020-01-02 3.5
"Yes" 2020-01-03 3.0
"Yes" 2020-01-04 5.0
"Yes" 2020-01-05 9.0
Minha expectativa neste caso é que o primeiro dia seja nulo porque não há 2 dias para preencher a janela. Mas os polares parecem apenas truncar a janela para preencher os dias iniciais.
Você pode verificar o comprimento?
Como alternativa, há um
.rolling_mean_by()
método dedicado que suportamin_periods
.Há uma solicitação de recurso ( #12798 ) para implementar um parâmetro
min_periods
/min_samples
que teria esse efeito, e isso também é discutido no problema #12049 .