- 1、本文档共80页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第4章(1)分类:决策树
;;分类的是利用一个分类函数(分类模型、分类器),该模型能把数据库中的数据映射到给定类别中的一个。
;训练样本、学习
测试、分类
属性
分类界限or分类规则
;分类;基本概念;数据分类——一个两步过程(1);数据分类——一个两步过程(2);有监督的学习VS.无监督的学习;分类模型的构造方法;;一个决策树的例子;决策树的另一个例子;用决策树归纳分类;为了对未知数据对象进行分类识别,可以根据决策树的结构对数据集中的属性进行测试,从决策树的根节点到叶节点的一条路径就形成了相应对象的类别测试。决策树可以很容易转换为分类规则
;决策树分类任务;一个决策树的例子;应用决策树进行分类;应用决策树进行分类;应用决策树进行分类;应用决策树进行分类;应用决策树进行分类;应用决策树进行分类;决策树分类;;决策树;Hunt算法;Hunt算法;决策树构建;怎样选择最佳划分?;怎样找到最佳划分?;结点不纯性的测量;停止分裂过程;三种著名的决策树;决策树;;;ID3使用信息增益作为属性选择度量。该度童基于香农(ClaudeShannon)在研究消息的值或信息内容的信息论方面的先驱工作。设结点N代表或存放分区D的元组。
选择具有最高信息增益的属性作为结点N的分裂属性。
该属性使结果分区中对元组分类所需要的信息量最小,并反映这些分区中的最小随机性或不纯性。这种方法使得对一个对象分类所需要的期望测试数目最小,并确保找到一棵简单的(但不必是最简单的)树。;对D中的元组分类所需要的期望信息由下式给出:
其中,Pi是D中任意元组属于类Ci的非零概率,并用
估计。
Info(D)是识别D中无组的类标号所需要的平均信息量。注意,此时我们所有的信息只是每个类的元组所占的百分比。
Info(D)又称为D的熵(entropy)
非负性:Info(D)大于等于0
连续性:Info(D)对任意q连续
极值性:当q都等于1\K时Info(D)达到最大值logK
;ID3算法——计算Entropy的例子;现在,假设我们要按某属性A划分D中的元组,其中属性A根据训练数据的观测具有v个不同值
如果A是离散值的,则这些值直接对应A上测试的v个输出。可以用属???A将D划分为v个分区或子集
其中,Dj包含D中的元组,它们的A值为aj。
这些分区对应于从结点N生长出来的分枝。理想情况下,我们希望该划分产生元组的准确分类。即我们希望每个分区都是纯的。然而,这些分区多半是不纯的(例如,分区可能包含来自不同类而不是来自单个类的元组)。
(在此划分之后)为了得到准确的分类,我们还需要多少信息?这个量由划分A的期望信息度量;划分的期望信息
项充当第j个分区的权重。InfoA(D)是基于按A划分对D的元组分类所需要的期望信息。需要的期望信息越小,分区的纯度越高。
信息增益定义为原来的信息需求(仅基于类比例)与新的信息需求(对A划分后1)之间的差。即
;信息增益定义为原来的信息需求(仅基于类比例)与新的信息需求(对A划分后1)之间的差。即
换言之,Gain(A)告诉我们通过A上的划分我们得到了多少。它是知道A的值而导致的信息需求的期望减少。
选择具有最高信息增益Gain(A)的属性A作为结点N的分裂属性。这等价于在“能做最佳分类”的属性A上划分,使得完成元组分类还需要的信息最小(即最小化Gain(A))。
;Trainingdataset:Buys_computer
Thedatasetfollowsanexample
ofQuinlan’sID3(PlayingTennis)
Resultingtree:;一个标记类的元组的训练集D,随机地从AlIElectronics顾客数据库中选取。
在这个例子中,每个属性都是离散值的,连续值属性已经被离散化。
类标号属性buys_compter有两个不同值(即{yes,no}),因此有两个不同的类(即m=2)。设类C1对应于yes,而类C2对应于no。
类yes有9个元组,类no有5个元组。为D中的元组创建(根)结点N。为了找出这些元组的分裂准则,必须计算每个属性的信息增益。
;下一步,需要计算每个属性的期望信息需求。从属性age开始。需要对age的每个类考察yes和no元组的分布。
;=30;;信息增益度量偏向具有许多输出的测试。换句话说,它倾向于选择具有大量值的属性。
例如,考虑充当唯一标识符的属性,如product_ID。在product_
您可能关注的文档
最近下载
- 佳木斯EBZ260掘进机详解.ppt
- 护理腹部查体ppt.pptx
- 北京市海淀区2023-2024学年高一下学期4月期中语文试题含答案.docx VIP
- 索尔维(镇江)化学品有限公司6000ta香兰素项目环境影响评价报告书.doc VIP
- YDT 1917-2009IPv6网络设备测试方法——具有IPv6路由功能的以太网交换机.pdf
- 二十五项反措继电保护.pdf
- 北京市海淀区2023-2024学年高一下学期4月期中语文试题含答案.pdf VIP
- 一种中频炉用新型坩埚结构.pdf VIP
- 支原体肺炎的病理特征与影像学表现.pptx
- 茂睿芯MK9118 耐压110V,DCDC转换器.pdf VIP
本人在医药行业摸爬滚打10年,做过实验室QC,仪器公司售后技术支持工程师,擅长解答实验室仪器问题,现为一家制药企业仪器管理。
文档评论(0)