随机森林
随机森林是一种流行的监督式机器学习方法,用于分类和回归。它通过使用多个决策树,并将这些树的预测结果组合成一个整体预测。训练随机森林即独立训练其每个决策树。每个决策树通常在训练集的略微不同部分上进行训练,并可能在其节点分割时考虑不同的特征。
这样做的目的是,每个决策树训练方式的差异将有助于避免过拟合,这在仅使用整个训练集训练单个决策树时并不少见。这种结合多个预测器(此处为决策树)的方法也称为集成学习,而为每个预测器使用训练集不同部分的方法通常被称为自助采样聚合或bagging。
超参数调优
为了平衡模型的偏差与方差、训练的速度与内存消耗等问题,GDS 暴露了一些可供调优的超参数。以下将逐一介绍。
最大特征比例
对于决策树中的每个节点分割,会考虑特征向量的特征集。所考虑的特征数量是 maxFeaturesRatio
乘以特征总数。如果需要考虑的特征数量少于特征总数,则会对所有特征的一个子集进行采样(不重复)。这有时被称为特征 bagging。
高的(接近 1.0)最大特征比例意味着训练将需要更长时间,因为决策树中如何分割节点的选项更多。这也意味着每个决策树在训练集上的预测会更好。虽然这在某种意义上是积极的,但它也可能意味着每个决策树都会在训练集上过拟合。
最大深度
此参数设置随机森林中决策树的最大深度。
较高的最大深度可能意味着训练时间更长,因为可能需要考虑更多的节点分割。生成的预测模型的内存占用也可能更高,因为树可能更大(更深)。
更深的决策树可能能够更好地拟合训练集,但这可能也意味着它会过拟合。
最小叶子大小
此参数设置决策树叶子节点中所需存在的最小训练样本数。
较大的叶子大小意味着对训练集的专业化程度较低,因此在训练集上的性能可能较差,但可能避免过拟合。这可能还意味着训练和预测会更快,因为树中可能包含更少的节点。
最小分割大小
此参数设置决策树节点中所需存在的最小训练样本数,以便在训练期间进行分割。分割节点意味着继续树构建过程以在该节点下方添加更多子节点。
较大的分割大小意味着对训练集的专业化程度较低,因此在训练集上的性能可能较差,但可能避免过拟合。这可能还意味着训练和预测会更快,因为可能考虑的节点分割较少,因此树中包含的节点也较少。