集成学习之Xgboost(5)

当前位置:

首页 > temp > 简明python教程 >

集成学习之Xgboost(5)

{\hat{y}}_{i}^{(t)}

表示组合

t

棵树模型对样本

x_{i}

的预测结果。

3. 树的结构与复杂度：

从单一的树来考虑。对于其中每一棵回归树，其模型可以写成：

f_{t} (x) = w_{q (x)}, w \in R^{T}, q : R^{d} — > {1, 2, . . ., T}

树拆分成结构部分 $q$ 和叶子权重部分 $w$ ，其中 $w$ 为叶子节点的得分值， $q (x)$ 表示样本 $x$ 对应的叶子节点。 $T$ 为该树的叶子节点个数。

Xgboost对树的复杂度包含了两个部分：（1）一个是树里面叶子节点的个数 $T$ ；（2）一个是树上叶子节点的得分 $w$ 的 $L 2$ 模平方（对 $w$ 进行 $L 2$ 正则化，相当于针对每个叶结点的得分增加 $L 2$ 平滑，目的是为了避免过拟合）。

因此可以将该树的复杂度写成：

Ω (h_{t}) = γ T + \frac{1}{2} λ \sum_{j = 1}^{T} w_{j}^{2}

其中， $γ$ 为 $L 1$ 正则的惩罚项， $λ$ 为 $L 2$ 正则的惩罚项。

树的复杂度函数和样例：

定义树的结构和复杂度的原因很简单，这样就可以衡量模型的复杂度了啊，从而可以有效控制过拟合。

4. Xgboost中的boosting tree模型：

例如要预测一家人对电子游戏的喜好程度，考虑到年轻和年老相比，年轻更可能喜欢电子游戏，以及男性和女性相比，男性更喜欢电子游戏，故先根据年龄大小区分小孩和大人，然后再通过性别区分开是男是女，逐一给各人在电子游戏喜好程度上打分，如下图所示：

看上图训练出2棵树tree1和tree2，类似之前GBDT的原理（Xgboost与GBDT比较大的不同就是目标函数的定义，下文会具体介绍），两棵树的结论累加起来便是最终的结论，所以小孩的预测分数就是两棵树中小孩所落到的结点的分数相加：2 + 0.9 = 2.9。爷爷的预测分数同理：-1 + （-0.9）= -1.9。

和传统的boosting tree模型一样，Xgboost的提升模型也是采用的残差（或梯度负方向），不同的是分裂结点选取的时候不一定是最小平方损失。

5. Xgboost目标/损失函数：

因为XGBoost也是集成学习方法的一种，所以预测模型和损失函数都可用上式表示。

XGBoost预测模型：

y^i = ϕ (x i

栏目列表