集成学习之Xgboost(6)|python教程|python入门|python教程

当前位置:

首页 > 编程开发 > python入门 >

python入门教程之集成学习之Xgboost(6)

本站最新发布 Python从入门到精通|Python基础教程
试听地址 https://www.xin3721.com/eschool/pythonxin3721/

)=∑k=1Kfk(xi)

{\hat{y}}_{i} = ϕ (x_{i}) = \sum_{k = 1}^{K} f_{k} (x_{i})

w h e r e F = {f_{t} (x) = w_{q (x)}}, (w \in R^{T}, q : R^{d} — > {1, 2, . . ., T})

$w_{q} (x)$ 为叶子节点 $q$ 的分数， $F$ 对应了所有 $K$ 棵回归树（regression tree）的集合，而 $f (x)$ 为其中一棵回归树。XGBoost算法的核心就是不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数，去拟合上次预测的残差。当我们训练完成得到k棵树，我们要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数。最后只需要将每棵树对应的分数加起来就是该样本的预测值。显然，我们的目标是要使得树群的预测值尽量接近真实值，而且有尽量大的泛化能力。所以，从数学角度看这是一个泛函最优化问题，故把目标函数简化如下。

XGBoost损失函数：

L (ϕ) = \sum_{i} l ({\hat{y}}_{i}, y_{i}) + \sum_{k} Ω (f_{k})

w h e r e Ω (f) = γ T + \frac{1}{2} λ {‖ w ‖}^{2}

从上式可以看出，这个目标函数分为两部分：损失函数和正则化项。且损失函数揭示训练误差（即预测分数和真实分数的差距），正则化定义复杂度。对于上式而言，是整个累加模型的输出，正则化项是则表示树的复杂度的函数，值越小复杂度越低，泛化能力越强，其中T表示叶子节点的个数，w表示叶子节点的分数。直观上看，目标要求预测误差尽量小，且叶子节点T尽量少（γ控制叶子结点的个数），节点数值w尽量不极端（λ控制叶子节点的分数不会过大），防止过拟合。

6. Xgboost目标函数的改写：

我们知道，每次往模型中加入一棵树，其损失函数便会发生变化。另外在加入第 $t$ 棵树时，则前面第 $t - 1$ 棵树已经训练完成，此时前面 $t - 1$ 棵树的正则项和训练误差都成已知常数项。再强调一下，考虑到第 $t$ 轮的模型预测值 ${\hat{y_{i}}}^{(t)}$ = 前 $t - 1$ 轮的模型预测 ${\hat{y_{i}}}^{(t - 1)}$

栏目列表

首页 > 编程开发 > python入门 >

python入门教程之集成学习之Xgboost(6)