我正在开发一个机器学习项目,我的数据集包含 218 个国家(从 1960 年到 2022 年)的社会、人口和经济方面的变量。目标变量是一个二元变量(是或否),表示该国家/地区是否在某一年至少发生过一次政变企图。我的问题是:多层次数据的最佳分类模型是什么?
通过咨询不同的来源,我写下了这些模型(没有特定的顺序):
- 随机森林
- XGBoost
- 物流分类
- 决策树
他们是错误的吗?还有更多我不知道的型号吗?如果没有,您知道我可以使用哪些资源在 R 中实现这些模型吗?
我正在开发一个机器学习项目,我的数据集包含 218 个国家(从 1960 年到 2022 年)的社会、人口和经济方面的变量。目标变量是一个二元变量(是或否),表示该国家/地区是否在某一年至少发生过一次政变企图。我的问题是:多层次数据的最佳分类模型是什么?
通过咨询不同的来源,我写下了这些模型(没有特定的顺序):
他们是错误的吗?还有更多我不知道的型号吗?如果没有,您知道我可以使用哪些资源在 R 中实现这些模型吗?
我认为你走在正确的道路上。根据您拥有的参数数量,我建议使用 XGB 的随机森林。
(根据我的理解,逻辑回归假设变量之间存在线性关系,因此您可能需要首先深入研究数据可视化。决策树很容易过度拟合,因此在没有有关数据集的更多信息的情况下,我不建议这样做)。
请记住,RF 和 XGB 的计算成本很高,并且需要调整(深度、正则化......)。但是,通过遵循一些教程并应用原则,您也许能够使用其中任何一个来生成准确的模型。它们将使您能够掌握数据中的复杂关系。然而,它们的可解释性也比 LR 和 DT 稍差。
您可能还考虑另一种常用的算法,支持向量机(SVM),但我不知道如何在 R 中使用它