随机森林
随机森林是一种流行的监督机器学习方法,用于分类和回归,它包括使用多个决策树,并将树的预测组合成一个整体预测。训练随机森林就是独立地训练其每个决策树。每个决策树通常在训练集的略微不同的部分上进行训练,并且可能查看不同的特征来进行节点拆分。
其理念是,每个决策树训练方式的不同将有助于避免过度拟合,而过度拟合在仅在一个决策树上训练整个训练集时并不少见。结合多个预测器(在本例中为决策树)的方法也称为集成学习,并且对每个预测器使用训练集的不同部分通常称为bootstrap 聚合或bagging。
调整超参数
为了平衡模型的偏差与方差、训练的速度与内存消耗等问题,GDS 公开了可以调整的几个超参数。下面将对每个参数进行描述。
最大特征比率
对于决策树中的每个节点分裂,都会考虑特征向量的一组特征。考虑的特征数量是maxFeaturesRatio
乘以特征总数。如果要考虑的特征数量少于特征总数,则会对所有特征进行子集采样(不放回)。这有时被称为特征装袋。
较高的(接近 1.0)最大特征比率意味着训练将花费更长时间,因为决策树中节点分裂的方式有更多选择。这也意味着每个决策树在训练集上的预测效果会更好。虽然从某种意义上说这是积极的,但它也可能意味着每个决策树都会在训练集上过拟合。
最大深度
此参数设置随机森林中决策树的最大深度。
较大的最大深度意味着训练可能需要更长时间,因为可能需要考虑更多的节点分裂。生成的预测模型的内存占用也可能更高,因为树可能更大(更深)。
更深的决策树可能能够更好地拟合训练集,但这可能也意味着它会过拟合。
最小叶子大小
此参数设置决策树的叶子节点中所需存在的最小训练样本数。
较大的叶子大小意味着在训练集上的专业化程度较低,因此可能在训练集上的性能较差,但可能避免过拟合。它也可能意味着训练和预测速度更快,因为树可能包含更少的节点。
最小分裂大小
此参数设置决策树节点中所需存在的最小训练样本数,以便在训练期间对其进行分裂。分裂节点意味着继续树构建过程以在节点下方添加更多子节点。
较大的分裂大小意味着在训练集上的专业化程度较低,因此可能在训练集上的性能较差,但可能避免过拟合。它也可能意味着训练和预测速度更快,因为可能需要考虑更少的节点分裂,因此树将包含更少的节点。