Chaper8，Tree-Based Methods（基于树的方法）

张开发

• 2026/6/3 10:41:47 • 15 分钟阅读

分享文章

《an introduction to statistical learning 2nd edition》8.1 The Basics of Decision Trees（决策树的基本原理）决策树在回归问题和分类问题中都有用武之地。本章介绍tree-based的回归和分类方法，这些方法主要根据stratifying和segmenting（分层和分割）的方式将预测变量空间划分为一系列简单区域。对于某个给定待预测的观测值，用它所属区域中训练集的mean 或 mode（平均值或众数）对其进行预测，这种方法是region-wise constant，and complementary nonparametric。由于划分预测变量空间的分裂规则可以被概况为一棵树，所以这类方法被称为decision tree method（决策树方法）。基于树的方法简便且易于解释。但预测准确性通常低于第6章和第7章介绍的指导的学习方法。本章还将介绍bagging（装袋法）、random forest（随机森林）和boosting（提升法）三种方法。它们都是先建立多棵树，再将这些树综合，最后根据表决产生预测。我们将看到，将大量的树集成后会极大地提升预测准确性，虽然与此同时会损失一些解释性。Some Notations：8.1.1 Regression Tree（回归树）为引入Regression Tree，首先从一个简单的例子开始。用回归树预测棒球运动员薪水使用Hitters数据集，根据变量Years和Hits预测棒球运动员的Salary。首先剔除Salary值有缺失的观测数据，并对Salary变量做对数变换，使其分布曲线更接近典型的钟型分布。图8-2表示了该数据集对应的回归树。它是由从树顶端开始的一系列分裂规则构成的。顶部分裂点将效力于职业棒球大联盟的年头数Years4.5Years4.5Years4.5的观测值分配到左边的分支。符合Years4.5Years4.5Years4.5的运动员的薪水的平均值即为它们的薪水预测值。这部分运动员的平均对数化薪水是5.107，所以薪水的预测值是e5.107e^{5.107}e5.107，而Years=4.5Years=4.5Years=4.5的观测值被分到右边的分支后，再根据Hits的取值进一步细分。总体来说，这棵树将运动员归入3个预测变量空间：效力4年及以下的，效力5年及以上且在上一年击出118记以下安打的，效力5年及以上且上一年至少击出118记安打的。3个区域可以记为R1={ X∣Years4.5},R2={ X∣Years=4.5,Hits117.5},R3={ X∣Years=4.5,Hits=117.5}R_1=\{X|Years4.5 \},R_2=\{X|Years=4.5, Hits117.5 \},R_3=\{X|Years=4.5, Hits=117.5 \}R1={X∣Years4.5},R2={X∣Years=4.5,Hits117.5},R3={X∣Years=4.5,Hits=117.5}. 图8-2将这些区域表示为Years和Hits的函数。沿树将预测变量空间分开的点称为内部结点（internal node），树内部各个节点的连接部分称为分支（branch）。通过特征空间分层预测：建立回归树的过程大致可以分为两步：（1）将预测变量空间(即X1,X2,...,XpX_{1},X_{2},...,X_{p}X1,X2,...,Xp的可能取值构成的集合)分割成JJJ个互不重叠的区域R1,R2,...,RjR_{1},R_{2},...,R_{j}R1,R2,...,Rj（2）对落入区域RjR_{j}Rj的每个观测值作同样的预测，预测值等于RjR_{j}Rj上训练集的响应值的简单算术平均。比如，若在第一步中得到两个区域R1R_1R1和R2R_2R2

Chaper8，Tree-Based Methods（基于树的方法）

最新文章

2025最权威的六大降重复率助手实测分析

零成本构建移动服务器：基于Termux的安卓Web服务实战

别再只用默认指标了！用通达信APP自定义一个‘分时T+0’盯盘助手，保姆级配置指南

告别“一锤子买卖”：给你的Xilinx FPGA设计加上Multiboot双镜像冗余备份

苹果15年来首次换帅，新CEO能否带领苹果打赢AI硬件之战？

从‘联网盒子’到‘数据枢纽’：T-BOX的十年演进与未来猜想（附：独立硬件 vs 融入域控的深度分析）

推荐文章

相关文章

分享文章

更多文章

Open UI5 源代码解析之977：Tree.js

3分钟掌握Steam成就管理终极方案：SAM工具完全指南

Easy-Scraper：基于HTML语义的Rust数据提取解决方案

Jitsi Meet与Nextcloud集成：构建私有云视频会议系统的终极指南

LOL悠米辅助工具版｜莎莉、格局小超梦、猩猩诺手等顶流主播同款｜+安装教程+终身使用

108.3亿元！通孔LED显示屏市场规模亮眼，产业增长态势持续凸显

16.1%年复合增速！通感算控一体化解决方案开启未来六年增长新赛道

腾讯会议回放视频过期了怎么办？亲测这款免费下载器，本地保存学习资料不求人

mysql如何查看数据库运行状态_使用show status查看负载

Wireshark + Cisco Packet Tracer 联动指南附安装教程

从VHDL到C指针：手把手拆解ZYNQ里PS用BRAM访问PL寄存器的完整数据通路

ACM MM 2025｜MIRA：面向AI辅助医学诊断的多模态智能检索与增强框架