PartJava - 编程学习与开发工具导航平台

机器学习/集成学习7 / 11

课程进度 58% · 第7/11章第7/11章 · 标签 1/3

— 1 —

集成学习

集成学习就像是'三个臭皮匠，顶个诸葛亮'。单个模型（基学习器）可能有各种偏差和局限，但通过组合多个不同的模型，让它们'投票'或'协作'，往往能得到比任何单个模型都更好的预测效果。集成学习是机器学习竞赛（如Kaggle）中的核心技术。

📖想象你在参加一个知识竞赛。你一个人可能答对80%的题，但如果找来三个擅长不同领域的队友：Alice精通数学、Bob擅长历史、Carol熟悉地理，你们小组讨论后一起作答，正确率可能飙升到95%。集成学习就是'组建最强团队'的策略——每个模型各有所长，合在一起就无敌了。

1. 随机森林（Random Forest）：基于Bagging思想构建多棵决策树，每棵树在随机采样的数据和随机选择的特征上训练，最终取平均（回归）或投票（分类）。

实践案例 - 信用评分：银行用随机森林评估贷款申请。每棵树看到的是不同的用户特征子集：有的侧重收入，有的侧重历史信用，有的侧重职业稳定性。综合所有树的判断，模型准确率从单棵决策树的72%提升到89%。

2. XGBoost（极致梯度提升）：基于Boosting思想的梯度提升框架，通过逐步添加决策树来纠正前一步的残差，是目前最流行的机器学习算法之一。

实践案例 - 房价预测：第一棵树根据面积预测房价为300万，残差是+50万；第二棵树专门学习残差，预测+30万；第三棵树预测剩余残差。三棵树加总得380万，比单棵树准确得多。Kaggle房价预测竞赛中，XGBoost是冠军标配。

3. LightGBM（轻量级梯度提升）：微软推出的高效梯度提升框架，采用基于直方图的算法和叶节点生长策略，训练速度相比XGBoost大幅提升。

实践案例 - 用户行为预测：某互联网公司需要预测用户点击率，数据规模达到100万用户×1000维特征。XGBoost训练需要6小时，LightGBM只需40分钟，精度还提高了0.5%。大数据场景下LightGBM是更优选择。

— 2 —

BaggingBoostingStacking随机森林XGBoostLightGBM