python计算决策树误差_《统计学习方法》第五章决策树 练习题解答-程序员宅基地

技术标签: python计算决策树误差  决策树法属于系统分析方法  

0243e509a31f06162c741be0d3af83bf.png

题目5.1

题目描述: 根据表(5.1)所给的训练数据集, 利用信息增益比 (C4.5算法)生成决策树

解答:

信息增益率的公式是:

首先回顾一下表(5.1)的结构:

328ad22392b1c0733edbeb9af5a8172f.png
表(5.1)

根据书上已经计算提供的数据, 我们有:

,
,

,
,

,
,

,
,

所以根据信息增益比的原则, 我们选择特征"有自己的房子"为切分点.

在左结点里, 所有"有自己的房子==是"的实例数据的类别均为"是", 所以左结点为叶结点, 结点类别为"是".

在右结点里, 我们首先整理出子数据集

:

1bb7a7916d1cb839b7a1fc810a340817.png
右结点 数据子集

所以在右结点选择特征"有工作", 以此切分后, 左右结点的实例数据子集都是单一类别的.

由此, 我们完成了根据信息增益比C4.5决策树构造, 见下图.

0c989f136d7eade23eae93dac935f268.png
C4.5算法 最终决策树

题目5.2

题目叙述: 己知如表 5.2 所示的训练数据,试用平方误差损失准则生成一棵二叉回归树

1b9af34f3f37c27d409866e4c3178857.png

解答:

回归树的平方损失准则是: 选择一个切分点, 将训练数据集分为小于等于

大于
两个子集, 求这个2个子集的
平方损失之和作为衡量这个切分点好坏的衡量标准.

我们用python代码帮助我们便捷快速地选择最优切分点:

import 

运行如上代码, 不断地对数据进行二叉切分后, 最终得到如下图的二叉回归决策树, 由于没有设置最小阈值, 所以我们是对每个点分到了叶结点.

6794fe55280eb0eed910ff882c76d0be.png
最小平方损失: 回归树

题目5.3

题目叙述: 证明CART剪枝算法中, 当

确定时, 存在唯一的最小子树
使得损失函数
最小化

解答:

采用反证法:

存在性易证, 在特征有限、数据集有限的情况下, 由于能生成的决策树数量有限, 每一棵都对应某一个

损失函数. 此之中一定存在一个最小的损失函数
.

唯一性: 对于决策树生成算法生成原始数

,假设存在2棵不同的最小子树
使得损失函数
最小化.

由于两棵子树不相同, 所以它们的剪枝方法

, 由于根据CART剪枝算法, 其中剪枝的每一步都使得损失函数
变低. 所以令
, 由
剪枝法生成的决策树为
. 那么就会有
以及
. 所以与假设
是使损失函数最小化的最小字数矛盾.

由此, 得证.


题目5.4

题目叙述: 证明CART剪枝算法中求出的子树序列

分别是区间
的最优子树
, 这里
,

解答:

首先我们需要回顾一下CART剪枝算法中, 我们对

中每一内部结点
都计算了:

. 剪枝的过程即是在
中减去
小的
作为
, 同时将
设为
.

我们想要证明

是区间
的最优子树.

首先

, 但是在剪枝序列
中这些结点已经被修剪掉了.

而排序在后的结点

, 都有
, 所以当惩罚系数
时, 若对
进行剪枝将会造成损失函数
增长.

由此, 得证

序列中的最优子树.

欢迎大家指出不足或错误, 进行提问和讨论.

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_39552037/article/details/110304424

智能推荐

xml文件中特殊字符的转义_xml特殊字符转义-程序员宅基地

文章浏览阅读5.3k次。前言在做项目的过程中,将项目中的数据库由原来链接我本地的数据库改为链接服务器的数据库,但是发现修改之后项目启动一直失败,经过查看日志才发现,原来数据库密码解析有问题。因为数据库的密码包含特殊符号,所以解析失败了。解决方案一:使用CDATA例如:<if test="startTime != null" > and l.CREATE_TIME >= #{start..._xml特殊字符转义

从数据仓库到数据结构:数据架构的演变之路-程序员宅基地

文章浏览阅读2.1k次。数据治理(DG):Experian数据质量报告表明,全球78%的组织受到数据治理不善的困扰,这导致人们对数据和从数据获得的洞察力产生不信任。数据治理告诉我们,在数据生命周期的任何时候,数据消费者都应该知道数据的位置、格式、使用关系以及与数据相关的任何其他相关信息,以避免数据债务。使数据成为可共享的资产:使数据成为可共享的资产强调我们将数据视为一种有价值的资源,可以在不同的系统之间共享和访问。从传统的数据仓库到现代的数据网格和数据结构方法,这些架构解决了特定的挑战,带来了新的机遇。

Java版工程行业管理系统源码-专业的工程管理软件- 工程项目各模块及其功能点清单-程序员宅基地

文章浏览阅读955次,点赞15次,收藏11次。二、企业通过数字化转型,不仅有利于优化业务流程、提升经营管理能力和风险控制能力,还可强有力地促进企业体制机制的全面创新。四、在企业里建立一个管过程、提效率、降风险、控成本的工程项目管理环境,科学化、规范化是至关重要的。1、项目列表:实现对项目列表的增删改查操作,包括查看各项目的立项人、创建时间、2、项目计划管理:项目计划查看和管理模块,可执行增删改查操作,包括查看甘特图。3、收支报表:项目收支报表,包含总体收支、项目收支和收支统计模块。1、项目汇总:项目汇总信息查看,包括进度、计划时间等信息。

杂项-安全:容灾系统-程序员宅基地

文章浏览阅读503次。ylbtech-杂项-安全:容灾系统容灾系统,对于IT而言,就是为计算机信息系统提供的一个能应付各种灾难的环境。当计算机系统在遭受如火灾、水灾、地震、战争等不可抗拒的自然灾难以及计算机犯罪、计算机病毒、掉电、网络/通信失败、硬件/软件错误和人为操作错误等人为灾难时,容灾系统将保证用户数据的安全性(数据容灾),甚至,一个更加完善的容灾系统,还能提供不间断的应用服务(应用容..._备中心不影响主中心性能,

C语言中的strlen()和sizeof()对比-程序员宅基地

文章浏览阅读490次。*1. strlen函数:**计算的是字符串str的长度,从字符的首地址开始遍历,以 ‘\0’ 为结束标志,然后将计算的长度返回,计算的长度并不包含’\0’。当我们遇到“\0"时我们就要停止读取,此时“\0"前字符的个数就是字符串的长度,注意:这里的“\0"只是结束标志,仅仅告诉我们strlen函数读取到这里就要停止了,“\0"不算做一个字符!!!**2. sizeof函数:**相比strlen函数,sizeof就简单多了,sizeof其实就是一个运算符,主要用来计算所占空间字节的大小。

一梦江湖网页提交问题服务器错误,【一梦江湖攻略】安宁寺侠士副本预备中(详细教程)...-程序员宅基地

文章浏览阅读438次。一梦江湖12月3日更新了什么体验优化调整一、更新内容1、面对面交易新增更新后,时装·十里荼蘼开放面对面交易。2、晓风开染色优化修正了晓风开·冠染白两鬓露黑的问题。3、白重预览优化修正了预览挂件·白重时的挂件角度错误问题。4、纸玩法开放材料购买为弘扬民间剪纸艺术,阴如穆决定放开手中杂货的门派购买限制,太阴以外的侠士也可在他那里购买用于剪纸的白纸、炭笔和染料了!5、神机万象修复修复了主动篆铭技的冷却时...

随便推点

珞珈一号数据预处理完整流程及一些总结_arcgis滤波器在哪里-程序员宅基地

文章浏览阅读7.2k次,点赞18次,收藏65次。珞珈一号的噪声噪点什么的都非常多,想要去噪声个人总结出了很多方法:1.arcgis滤波器(空间分析工具——邻域分析——滤波器:低通滤波)2.envi低通滤波(同上面的工具,特点是可以平滑图像减少噪声同时会减少细节)3.利用自然间断点分级法来进行灯光分级(级别越多越好,分的越细,阈值也就更加精确),分级后从中选择适合的灯光值作为阈值以去除噪声4.老方法(不变目标区域法):选择同年同月份的npp影像,默认npp影像上DN值为0的地方在珞珈一号DN值也为0,以此作为掩膜去剔除噪声…(方法很多,仅供参考)_arcgis滤波器在哪里

NBT封面:水稻NRT1.1B基因调控根系微生物组参与氮利用(作者解读)-程序员宅基地

文章浏览阅读3.3k次,点赞2次,收藏11次。https://www.nature.com/nbt/volumes/37/issues/6Nature Biotechnology杂志2019年6月5日(37卷第6期),中科院遗传发..._nrt1.1b is associated with root microbiota composition and nitrogen use in f

java控制台内容覆盖_Java代码自动生成注释,运行后在控制台输入文件路径就可以将该路径下的文件都加上注释,不会覆盖已有的注释...-程序员宅基地

文章浏览阅读67次。Java代码自动生成注释,运行后在控制台输入文件路径就可以将该路径下的文件都加上注释,不会覆盖已有的注释代码片段:/*** 此类文件作用于为大量类文件* 加上类注释,方法注释* 加注释时不会覆盖已有注释* @author lKF44520* @date 2011-07-20*/public class RemarkHelper {public static void main(String[]..._修改javadoc注释怎么覆盖代码已有的注释

数字电视中相关概念1 :码率、符号率、带宽、宽带_符号率 范围 dvbc-程序员宅基地

文章浏览阅读7.3k次。数字通信的理论是:8MHz是载波带宽,因为调制是双边带的,其基带带宽为4MHz。Nyquist理论说,每Hz的带宽可以传输2symbol/s的数据,这个说法是说发送滤波器可以做到理想频率响应。那么在正常情况下做不到的,所以最常用的设计方法是升余弦响应,这种设计有个特征系数就滚降因子,如为0.15,所以可以使用的有效带宽就为4/1.15=3.478MHz。这样在3.478MHz的基带带宽内可以传输的_符号率 范围 dvbc

用中国高铁来谈谈AXI Outstanding能力_dma outstanding-程序员宅基地

文章浏览阅读1.8k次,点赞6次,收藏38次。好,我们一一对应上之后,我们以上海到北京的高铁为例,假设全上海的人都要坐高铁去北京,为了达到最高效率,那就是上海到北京的铁轨上高铁首尾相接,从上海虹桥排到北京南站,这些首位相接的高铁还都以310Km/h的速度前进(这里我们不考虑高铁停在北京南站下客减速的时间哈)。大家都知道AXI是ARM AMBA协议家族的一员,AXI的很多特性,例如分离的读写通道、Burst传输,Interleaving、乱序返回等特,显著提升了SOC互连的性能。和高铁列数的计算类似,我们首先需要确定AXI Master 在需要的场景。_dma outstanding

专访天谋科技谭新宇:我与 IoTDB 的这些年-程序员宅基地

文章浏览阅读1k次,点赞18次,收藏19次。从清华大学到天谋科技:一名 IoTDB 深度参与者的转换与成长。自 2020 年以来,在数字化、国产化浪潮叠加下,中国信创产业得以高速发展,从基础硬件到基础软件、应用软件再到信息安全层面均涌现出一批领先的项目和厂商。聚焦到基础软件层面,以 IoTDB 为代表的国产时序数据库正为工业、制造业等国家支柱行业的数字化转型、国产化替代筑基。作为一款从“0”到“1”自主研发的国产时序数据库,IoTDB 刚刚...

推荐文章

热门文章

相关标签