Chaper8,Tree-Based Methods(基于树的方法)

张开发
2026/4/14 22:10:44 15 分钟阅读

分享文章

Chaper8,Tree-Based Methods(基于树的方法)
《an introduction to statistical learning 2nd edition》8.1 The Basics of Decision Trees(决策树的基本原理)决策树在回归问题和分类问题中都有用武之地。本章介绍tree-based的回归和分类方法,这些方法主要根据stratifying和segmenting(分层和分割)的方式将预测变量空间划分为一系列简单区域。对于某个给定待预测的观测值,用它所属区域中训练集的mean 或 mode(平均值或众数)对其进行预测,这种方法是region-wise constant,and complementary nonparametric。由于划分预测变量空间的分裂规则可以被概况为一棵树,所以这类方法被称为decision tree method(决策树方法)。基于树的方法简便且易于解释。但预测准确性通常低于第6章和第7章介绍的指导的学习方法。本章还将介绍bagging(装袋法)、random forest(随机森林)和boosting(提升法)三种方法。它们都是先建立多棵树,再将这些树综合,最后根据表决产生预测。我们将看到,将大量的树集成后会极大地提升预测准确性,虽然与此同时会损失一些解释性。Some Notations:8.1.1 Regression Tree(回归树)为引入Regression Tree,首先从一个简单的例子开始。用回归树预测棒球运动员薪水使用Hitters数据集,根据变量Years和Hits预测棒球运动员的Salary。首先剔除Salary值有缺失的观测数据,并对Salary变量做对数变换,使其分布曲线更接近典型的钟型分布。图8-2表示了该数据集对应的回归树。它是由从树顶端开始的一系列分裂规则构成的。顶部分裂点将效力于职业棒球大联盟的年头数Years4.5Years4.5Years4.5的观测值分配到左边的分支。符合Years4.5Years4.5Years4.5的运动员的薪水的平均值即为它们的薪水预测值。这部分运动员的平均对数化薪水是5.107,所以薪水的预测值是e5.107e^{5.107}e5.107,而Years=4.5Years=4.5Years=4.5的观测值被分到右边的分支后,再根据Hits的取值进一步细分。总体来说,这棵树将运动员归入3个预测变量空间:效力4年及以下的,效力5年及以上且在上一年击出118记以下安打的,效力5年及以上且上一年至少击出118记安打的。3个区域可以记为R1={ X∣Years4.5},R2={ X∣Years=4.5,Hits117.5},R3={ X∣Years=4.5,Hits=117.5}R_1=\{X|Years4.5 \},R_2=\{X|Years=4.5, Hits117.5 \},R_3=\{X|Years=4.5, Hits=117.5 \}R1​={X∣Years4.5},R2​={X∣Years=4.5,Hits117.5},R3​={X∣Years=4.5,Hits=117.5}. 图8-2将这些区域表示为Years和Hits的函数。沿树将预测变量空间分开的点称为内部结点(internal node),树内部各个节点的连接部分称为分支(branch)。通过特征空间分层预测:建立回归树的过程大致可以分为两步:(1)将预测变量空间(即X1,X2,...,XpX_{1},X_{2},...,X_{p}X1​,X2​,...,Xp​的可能取值构成的集合)分割成JJJ个互不重叠的区域R1,R2,...,RjR_{1},R_{2},...,R_{j}R1​,R2​,...,Rj​(2)对落入区域RjR_{j}Rj​的每个观测值作同样的预测,预测值等于RjR_{j}Rj​上训练集的响应值的简单算术平均。比如,若在第一步中得到两个区域R1R_1R1​和R2R_2R2​

更多文章