集成学习之Xgboost(16)|python教程|python入门|python教程

当前位置:

T

为第t棵树中总叶子节点的个数，

I_{j}

被定义为每个叶节点

j

上面样本下标的集合

I_{j} = i | q (x_{i} = j)

，即表示

i

样本落在第

j

个叶子节点上，这个定义里的

q (x_{i})

要表达的是：每个样本值

x_{i}

都能通过函数

q (x_{i})

映射到树上的某个叶子节点，从而通过这个定义把两种累加统一到了一起。g是一阶导数，h是二阶导数。这一步是由于xgboost目标函数第二部分加了两个正则项，一个是叶子节点个数(T),一个是叶子节点的分数(w)。

继续把每个叶子节点区域样本的一阶和二阶导数的和单独表示如下： $G_{j} = \sum_{i ϵ I_{j}} g_{i}$ ， $H_{j} = \sum_{i ϵ I_{j}} h_{i}$

最终损失函数的形式可以表示为：

O b j^{(t)} = \sum_{j = 1}^{T} [G_{i} w_{j} + \frac{1}{2} (H_{i} + λ) w_{j}^{2}] + γ T

现在我们得到了最终的损失函数，那么回到前面讲到的问题，如何一次求解出决策树最优的所有 $J$ 个叶子节点区域和每个叶子节点区域的最优解 $w_{j}$ 呢？

9. XGBoost损失函数的优化求解

关于如何一次求解出决策树最优的所有 $J$ 个叶子节点区域和每个叶子节点区域的最优解 $w_{j}$ ，可以把它拆分成2个问题：

1) 如果我们已经求出了第 $t$ 个决策树的 $J$

栏目列表

python入门教程之集成学习之Xgboost(16)