当前位置:

首页 > Python基础教程 >

【scikit-learn基础】--『监督学习』之随机森林分类

随机森林分类算法是一种基于集成学习（ensemble learning）的机器学习算法，
它的基本原理是通过对多个决策树的预测结果进行平均或投票，以产生最终的分类结果。

随机森林算法可用于回归和分类问题。
关于随机森林算法在回归问题上的应用可参考：TODO

随机森林分类算法可以应用于各种需要进行分类或预测的问题，如垃圾邮件识别、信用卡欺诈检测、疾病预测等，
它也可以与其他机器学习算法进行结合，以进一步提高预测准确率。

1. 算法概述

随机森林的基本原理是构建多棵决策树，每棵树都是基于原始训练数据的一个随机子集进行训练。在构建每棵树时，算法会随机选择一部分特征进行考虑，而不是考虑所有的特征。

然后，对于一个新的输入样本，每棵树都会进行分类预测，并将预测结果提交给“森林”进行最终的分类决策。
一般来说，森林会选择出现次数最多的类别作为最终的分类结果。

理论上来看，随机森林分类应该比决策树分类有更加好的准确度，特别是在高维度的数据情况下。

2. 创建样本数据

为了后面比较随机森林分类算法和决策树算法的准确性，创建分类多一些（8个分类标签）的样本数据。

import matplotlib.pyplot as plt
from sklearn.datasets import make_classification

# 分类数据的样本生成器
X, y = make_classification(
    n_samples=1000, n_classes=8, n_clusters_per_class=2, n_informative=6
)
plt.scatter(X[:, 0], X[:, 1], marker="o", c=y, s=25)

plt.show()

3. 模型训练

首先，分割训练集和测试集。

from sklearn.model_selection import train_test_split

# 分割训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1)

这次按照9:1的比例来划分训练集和测试集。

用决策树分类模型来训练数据：

from sklearn.tree import DecisionTreeClassifier

reg_names = [
    "ID3算法",
    "C4.5算法",
    "CART算法",
]

# 定义
regs = [
    DecisionTreeClassifier(criterion="entropy"),
    DecisionTreeClassifier(criterion="log_loss"),
    DecisionTreeClassifier(criterion="gini"),
]

# 训练模型
for reg in regs:
    reg.fit(X_train, y_train)

# 在测试集上进行预测
y_preds = []
for reg in regs:
    y_pred = reg.predict(X_test)
    y_preds.append(y_pred)

for i in range(len(y_preds)):
    correct_pred = np.sum(y_preds[i] == y_test)
    print("决策树【{}】 预测正确率：{:.2f}%".format(reg_names[i], correct_pred / len(y_pred) * 100))

# 运行结果
决策树【ID3算法】 预测正确率：43.00%
决策树【C4.5算法】 预测正确率：42.00%
决策树【CART算法】 预测正确率：42.00%

用随机森林分类模型来训练数据：

from sklearn.ensemble import RandomForestClassifier

reg_names = [
    "ID3算法",
    "C4.5算法",
    "CART算法",
]

# 定义
regs = [
    RandomForestClassifier(criterion="entropy"),
    RandomForestClassifier(criterion="log_loss"),
    RandomForestClassifier(criterion="gini"),
]

# 训练模型
for reg in regs:
    reg.fit(X_train, y_train)

# 在测试集上进行预测
y_preds = []
for reg in regs:
    y_pred = reg.predict(X_test)
    y_preds.append(y_pred)

for i in range(len(y_preds)):
    correct_pred = np.sum(y_preds[i] == y_test)
    print("随机森林【{}】 预测正确率：{:.2f}%".format(reg_names[i], correct_pred / len(y_pred) * 100))

# 运行结果
随机森林【ID3算法】 预测正确率：64.00%
随机森林【C4.5算法】 预测正确率：63.00%
随机森林【CART算法】 预测正确率：69.00%