Problema: Estou executando um LightGBMModel via Darts com algumas covariáveis (futuras). Quero entender a relevância dos diferentes recursos (atrasados).
Em particular, gostaria de recuperar a importância do recurso para a variável-alvo defasada, bem como para as covariáveis, usando os nomes das colunas originais do objeto TimeSeries do Darts. No objeto do modelo LightGBM, após o ajuste, só consigo ver nomes de colunas genéricos ("column_0", "column_1"). Como posso conectar isso a nomes significativos (por exemplo, target_lag_1, target_lag_2, name_of_covariate_lag_1, ...)?
Quero incluir várias covariáveis futuras (por exemplo, vários atributos de data e hora, como o dia da semana, com codificações diferentes). Não importa onde os atributos de data e hora são criados (por exemplo, usando o Pandas, usando o próprio Darts).
Exemplo mínimo reproduzível Adotei o exemplo da documentação
Este é o código da documentação, apenas configurando os dados e ajustando o modelo:
from darts.datasets import WeatherDataset
from darts.models import LightGBMModel
series = WeatherDataset().load()
# predicting atmospheric pressure
target = series['p (mbar)'][:100]
# optionally, use past observed rainfall (pretending to be unknown beyond index 100)
past_cov = series['rain (mm)'][:100]
# optionally, use future temperatures (pretending this component is a forecast)
future_cov = series['T (degC)'][:106]
# predict 6 pressure values using the 12 past values of pressure and rainfall, as well as the 6 temperature
# values corresponding to the forecasted period
model = LightGBMModel(
lags=12,
lags_past_covariates=12,
lags_future_covariates=[0,1,2,3,4,5],
output_chunk_length=6,
verbose=-1
)
model.fit(target, past_covariates=past_cov, future_covariates=future_cov)
Após ajustar o modelo, agora quero analisar a importância dos recursos.
for i, estimator in enumerate(model.model.estimators_):
print(f"Target {i} Importance (Gain):")
# Access LightGBM booster
booster = estimator.booster_
# Get feature names
feature_names = booster.feature_name()
# Get gain-based importance
importance = booster.feature_importance(importance_type='gain')
# Create mapping
named_importance = dict(zip(feature_names, importance))
print(named_importance)
Isso retorna a importância do recurso para várias colunas em cada estimador. Mas os nomes dos recursos são nomes genéricos gerados pelo LightGBM ('Column_1', 'Column_2', ...). Não sei como vincular isso de volta aos nomes das colunas originais no objeto TimeSeries do Darts (por exemplo, 'rain (mm)', ''T (degC)') com as informações adicionais às quais o atraso da importância do recurso se refere.