- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 分类 分类 分类的目的是提出一个分类函数或分类模型(即分类器),通过分类器将数据对象映射到某一个给定的类别中。 数据分类可以分为两步进行。 第一步建立模型,用于描述给定的数据集合。通过分析由属性描述的数据集合来建立反映数据集合特性的模型。这一步也称作有监督的学习,导出模型是基于训练数据集的,训练数据集是已知类标记的数据对象。 第二步使用模型对数据对象进行分类。首先应该评估模型的分类准确度,如果模型准确度可以接受,就可以用它来对未知类标记的对象进行分类。 如果一个学习所获模型的准确率经测试被认为是可以接受的,那么就可以使用这一模型对未来数据或对象(其类别未知)进行分类。 决策树 决策树是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。 本质上决策树是通过一系列规则对数据进行分类的过程。 计数 年龄 收入 学生 信誉 归类:买计算机? 64 青 高 否 良 不买 64 青 高 否 优 不买 128 中 高 否 良 买 60 老 中 否 良 买 64 老 低 是 良 买 64 老 低 是 优 不买 64 中 低 是 优 买 128 青 中 否 良 不买 64 青 低 是 良 买 132 老 中 是 良 买 64 青 中 是 优 买 32 中 中 否 优 买 32 中 高 是 良 买 63 老 中 否 优 不买 1 老 中 否 优 买 谁在买计算机? 年龄? 学生? 信誉? 买 青 中 老 否 是 优 良 不买 买 买 不买 决策树的用途 决策树算法 决策树算法 决策树的表示 决策树的基本组成部分:决策结点、分支和叶子。 年龄? 学生? 信誉? 买 青 中 老 否 是 优 良 不买 买 买 不买 决策树中最上面的结点称为根结点。 是整个决策树的开始。每个分支是一 个新的决策结点,或者是树的叶子。 每个决策结点代表一个问题或者决策. 通常对应待分类对象的属性。 每个叶结点代表一种可能的分类结果 在沿着决策树从上到下的遍历过程中,在每个结点都有一个 测试。对每个结点上问题的不同测试输出导致不同的分枝,最后 会达到一个叶子结点。这一过程就是利用决策树进行分类的过程, 利用若干个变量来判断属性的类别 ID3算法 ID3算法是一种经典的决策树学习算法,算法的基本思想是,以信息熵为度量,用于决策树节点的属性选择,每次优先选取信息量最多的属性,亦即能使熵值变为最小的属性,以构造一颗熵值下降最快的决策树,到叶子节点处的熵值为0。此时,每个叶子节点对应的实例集中的实例属于同一类。 熵(Entropy)刻画了任意样本集的纯度。熵值越小,划分的纯度越高,对样本分类的不确定性越低。 信息量大小的度量 Shannon1948年提出的信息论理论。事件ai的信息量I( ai )可 如下度量: 其中p(ai)表示事件ai发生的概率。 在决策树分类中,假设S是训练样本集合,|S|是训练样本数,样本 划分为n个不同的类C1,C2,….Cn,这些类的大小分别标记为|C1|, |C2|,…..,|Cn|。则任意样本S属于类Ci的概率为: ID3 –信息量大小的度量 Entropy(S,A)=∑(|Sv|/|S|)* Entropy(Sv) ∑是属性A的所有可能的值v,Sv是属性A有v值的S子集 |Sv|是Sv 中元素的个数;|S|是S中元素的个数。 Gain(S,A)是属性A在集合S上的信息增益 Gain(S,A)= Entropy(S) -Entropy(S,A) Gain(S,A)越大,说明选择测试属性对分类提供的信息越多 ID3 决策树建立算法 1 决定分类属性; 2 对目前的数据表,建立一个节点N 3 如果数据库中的数据都属于同一个类,N就是树叶,在树叶上 标出所属的类 4 如果数据表中没有其他属性可以考虑,则N也是树叶,按照少 数服从多数的原则在树叶上标出所属类别 5 否则,根据平均信息期望值E或GAIN值选出一个最佳属性作 为节点N的测试属性 6 节点属性选定后,对于该属性中的每个值: 从N生成一个分支,并将数据表中与该分支有关的数据收集形 成分支节点的数据表,在表中删除节点属性那一栏 如果分支数据表非空,则运用以上算法从该节点建立子树。 计数 年龄 收入 学生 信誉 归类:买计算机? 64 青 高 否 良 不买 64 青 高 否 优 不买 1
您可能关注的文档
最近下载
- 土地资源调查课件.pptx VIP
- 2025教学主任及教秘专项培训班考核试卷含答案.docx
- QC∕T 948-2013 汽车顶部装载装置.pdf VIP
- 八上名著《红岩》:故事梗概+知识点+考点大集合.doc VIP
- 《劳动经济学讲义》课件.ppt VIP
- ISO各体系认证审核前准备资料清单.doc VIP
- 巧虎目录清单.doc VIP
- 销售管理专业《销售案例研究 ( 实践 ) 》课程调研报告样本.pdf VIP
- 2025年新精通版(三年级起)英语三年级上册课件 Unit 2 Lesson 3 .pptx VIP
- 场效应MOS管AK4435参数-9.1A-30V封装SOP-8.pdf VIP
文档评论(0)