集成学习之Xgboost(18)|python教程|python入门|python教程

当前位置:

首页 > 编程开发 > python入门 >

python入门教程之集成学习之Xgboost(18)

本站最新发布 Python从入门到精通|Python基础教程
试听地址 https://www.xin3721.com/eschool/pythonxin3721/

yif(xi)))

g_{i} = - r_{i} = - y_{i} / (1 + e x p (y_{i} f (x_{i})))

其每个样本的二阶导数为： $h_{i} = \frac{e x p (y_{i} f (x_{i})}{(1 + e x p (y_{i} f (x_{i}))^{2}} = | g_{i} | (1 - | g_{i} |)$

由于没有正则化项，则 $c_{t j} = - \frac{g_{i}}{h_{i}}$ ，即可得到GBDT二分类叶子节点区域的近似值。

现在我们回到XGBoost，我们已经解决了第一个问题。现在来看XGBoost优化拆分出的第二个问题：如何选择哪个特征和特征值进行分裂，使最终我们的损失函数 $L$ 最小？在GBDT里面，我们是直接拟合的CART回归树，所以树节点分裂使用的是均方误差。XGBoost这里不使用均方误差，而是使用贪心法，即每次分裂都期望最小化我们的损失函数的误差。

注意到在 $w_{j}$ 取最优解的时候，原损失函数对应的表达式为：

O b j = - \frac{1}{2} \sum_{j = 1}^{J} \frac{G_{j}^{2}}{H_{j} + λ} + γ T

Obj代表了当指定一个树的结构的时候，在目标上面最多减少多少。结构分数(structure score)，这里结构分数越小代表这颗树的结构越好。

1) 树结构的打分函数

这里的结构分数(structure score)可以理解为类似于Gain系数一样更加一般的对于树打分的函数。

具体打分函数例子：

Xgboost算法的步骤和GB基本相同，都是首先初始化为一个常数，gb是根据一阶导数 $r_{i}$ ，Xgboost是根据一阶导数 $g_{i}$ 和二阶导数 $h_{i}$ ，迭代生成基学习器，相加更新学习器。对于每一次尝试去对已有的叶子加入一个分割，每次做左右子树分裂时，目标是最大程度的减少损失函数的损失，也就是说，假设当前节点左右子树的一阶二阶导数和为 $G L$ , $H L$ , $G R$ , $H R$ 则我们期望最大化下式：

G a i n = 1 2 [G 2 L H L

栏目列表

首页 > 编程开发 > python入门 >

python入门教程之集成学习之Xgboost(18)