lsr729

Asked: 2025-04-16 03:53:59 +0800 CST2025-04-16 03:53:59 +0800 CST 2025-04-16 03:53:59 +0800 CST

Por que o RandomForestClassifier no scikit-learn prevê até mesmo entradas totalmente NaN?

Estou treinando um classificador de floresta aleatória em python sklearn, veja o código abaixo-

from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier(random_state=42)
rf.fit(X = df.drop("AP", axis =1), y = df["AP"].astype(int))

Quando prevejo os valores usando este classificador em outro conjunto de dados que possui NaNvalores, o modelo fornece alguma saída. Nem isso, tentei prever a saída em uma linha com todas as variáveis como NaNs, e ele previu as saídas.

#making a row with all NaN values 
row = pd.DataFrame([np.nan] * len(rf.feature_names_in_), index=rf_corn.feature_names_in_).T
rf.predict(row)

Ele prevê- array([1])

Sei que o RandomForestClassifier no Scikit-learn não oferece suporte nativo a valores ausentes. Portanto, eu esperava um ValueError, não uma previsão.

Posso ignorar as linhas NaN e prever apenas linhas não nan, mas estou preocupado se há algo errado com este classificador. Qualquer informação será bem-vinda.

1 respostas

Voted

Best Answer

Frank Liu
2025-04-16T04:08:06+08:002025-04-16T04:08:06+08:00
Na versão mais recente do scikit-learn (v1.4), eles adicionaram suporte para valores ausentes no RandomForestClassifier quando o critério é gini (padrão).

Fonte: https://scikit-learn.org/dev/whats_new/v1.4.html#id7
2

Por que o RandomForestClassifier no scikit-learn prevê até mesmo entradas totalmente NaN?

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Por que o RandomForestClassifier no scikit-learn prevê até mesmo entradas totalmente NaN?

1 respostas

relate perguntas