basejumping_turtle提出的问题 -coding

basejumping_turtle

Asked: 2025-04-24 19:30:40 +0800 CST

Darts e LightGBM: os nomes das colunas originais não podem ser recuperados devido à importância do recurso

Problema: Estou executando um LightGBMModel via Darts com algumas covariáveis (futuras). Quero entender a relevância dos diferentes recursos (atrasados).

Em particular, gostaria de recuperar a importância do recurso para a variável-alvo defasada, bem como para as covariáveis, usando os nomes das colunas originais do objeto TimeSeries do Darts. No objeto do modelo LightGBM, após o ajuste, só consigo ver nomes de colunas genéricos ("column_0", "column_1"). Como posso conectar isso a nomes significativos (por exemplo, target_lag_1, target_lag_2, name_of_covariate_lag_1, ...)?

Quero incluir várias covariáveis futuras (por exemplo, vários atributos de data e hora, como o dia da semana, com codificações diferentes). Não importa onde os atributos de data e hora são criados (por exemplo, usando o Pandas, usando o próprio Darts).

Exemplo mínimo reproduzível Adotei o exemplo da documentação

Este é o código da documentação, apenas configurando os dados e ajustando o modelo:

from darts.datasets import WeatherDataset
from darts.models import LightGBMModel


series = WeatherDataset().load()


# predicting atmospheric pressure
target = series['p (mbar)'][:100]


# optionally, use past observed rainfall (pretending to be unknown beyond index 100)
past_cov = series['rain (mm)'][:100]


# optionally, use future temperatures (pretending this component is a forecast)
future_cov = series['T (degC)'][:106]


# predict 6 pressure values using the 12 past values of pressure and rainfall, as well as the 6 temperature
# values corresponding to the forecasted period
model = LightGBMModel(
    lags=12,
    lags_past_covariates=12,
    lags_future_covariates=[0,1,2,3,4,5],
    output_chunk_length=6,
    verbose=-1
)


model.fit(target, past_covariates=past_cov, future_covariates=future_cov)

Após ajustar o modelo, agora quero analisar a importância dos recursos.

for i, estimator in enumerate(model.model.estimators_):
    print(f"Target {i} Importance (Gain):")

    # Access LightGBM booster
    booster = estimator.booster_

    # Get feature names
    feature_names = booster.feature_name()

    # Get gain-based importance
    importance = booster.feature_importance(importance_type='gain')

    # Create mapping
    named_importance = dict(zip(feature_names, importance))
    print(named_importance)

Isso retorna a importância do recurso para várias colunas em cada estimador. Mas os nomes dos recursos são nomes genéricos gerados pelo LightGBM ('Column_1', 'Column_2', ...). Não sei como vincular isso de volta aos nomes das colunas originais no objeto TimeSeries do Darts (por exemplo, 'rain (mm)', ''T (degC)') com as informações adicionais às quais o atraso da importância do recurso se refere.

Darts e LightGBM: os nomes das colunas originais não podem ser recuperados devido à importância do recurso

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

basejumping_turtle's questions