上一篇文章中我和你分享了提升法和装袋法这两种典型的集成方法,它们都可以用在决策树模型上,对多棵不同的树进行组合。然而直接使用这两种集成方法只是初级的策略,将它们的强化版用在决策树上可以得到更加强大的万能模型,也就是梯度提升决策树和随机森林。

梯度提升(gradient boosting)的思想来源于对提升方法的推广。显式的提升方法本身可以解释为对一个合适的损失函数的优化,如果将损失函数的选择扩展为任意的可微函数,并将提升方法和最优化中的梯度下降(gradient descent)结合起来,得到的就是梯度提升。

梯度提升将提升方法视为函数式的迭代梯度下降算法,通过迭代地选择指向负梯度方向的函数,也就是弱学习器来优化整个函数空间上的代价函数。在 AdaBoost 中,每个弱学习器的短板通过权重的加强得以凸显;而在梯度提升中,凸显的方式被替换成了梯度。

要理解梯度提升方法的妙处,还是要先从回归问题说起。在解决回归问题时,模型的输出 f(x)f(x)