智能计算_分类和预测.ppt

下载文档 降价啦

3
0
约5.78千字
约 44页
2016-01-02 发布于安徽
举报
版权申诉
保障服务

智能计算_分类和预测.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

智能计算-分类与预测分类和预测什么是分类？什么是预测关于分类和预测的一些问题使用决策树进行分类用Excel来演示决策树用Matlab演示决策树分类和预测分类类标签属性的确定基于训练集形成一个模型，训练集中的类标签是已知的。使用该模型对新的数据(测试集)进行分类预测: 对连续性字段进行建模和预测。典型应用信用评分目标市场定位医疗诊断治疗结果分析分类的两个步骤模型创建: 描述一组预先确定的类每一条记录都属于一个预先定义的类别，我们使用类标签属性来标识类别。用于创建模型的数据集叫:训练集模型可以用分类规则，决策树，或者数学方程的形式来表达。模型使用: 用创建的模型预测未来或者类别未知的记录的类别估计模型的准确率使用创建的模型在一个测试集上进行预测，并将结果和实际值进行比较准确率是测试集中被正确分类的对象的比率测试集和训练集是独立的。分类过程(1)：模型创建分类过程 (2): 使用模型有监督和无监督学习有监督学习 (分类) 训练集是带有类标签的新的数据是基于训练集进行分类的。无监督学习 (聚类) 训练集的类标签未知。给定一组测度(度量)或观察，然后寻找出训练集中存在类别或者聚类。分类和预测什么是分类？什么是预测关于分类和预测的一些问题使用决策树进行分类用Excel来演示决策树用Matlab演示决策树关于分类和预测的一些问题 (1): 数据准备数据清洗对数据进行预处理，消除噪音,处理缺失值。相关性分析 (属性选择) 去掉不相关或者冗余的属性数据转换规范化或者对数据进行标准化关于分类和预测的问题 (2): 评估分类方法预测准确率速度创建速度使用速度强壮性处理噪音和丢失值伸缩性(规模化) 对磁盘驻留数据的处理能力可解释性: 对模型的可理解程度。规则好坏的评价决策树的大小分类规则的简明性分类和预测什么是分类？什么是预测关于分类和预测的一些问题使用决策树进行分类用Excel来演示决策树用Matlab演示决策树使用决策树归纳进行分类决策树一个类似流程图的树结构内部节点表示在一个属性上的测试每个分枝表示测试的结果叶子节点表示类或一个类分布决策树生成算法分成两个步骤树的创建初始时，所有的训练例子都在根节点根据被选属性,递归地对例子进行划分树的修剪识别并去掉那些反映噪音或者异常的分枝决策树使用: 对未知样本进行分类对照决策树测试样本的属性值训练集输出: 关于购买电脑的一棵决策树决策树算法基本算法（贪心算法）树的建立是自上而下递归的分而治之的方法初始时，所有的训练例子都在根节点属性都是类别字段 (如果是连续的，将其离散化) 所有例子根据所选属性递归地进行划分属性的选择是基于一个启发式规则或者一个统计的度量 (如, information gain, 信息增益) 停止划分的条件给定节点的所有样本都属于同一个类没有剩余的属性可以用于进一步划分样本分枝没有样本可划分了属性选择的统计度量 Information gain (ID3/C4.5) 所有属性都假定为类别型属性经过修改之后可以适用于连续型属性 Gini index (IBM IntelligentMiner) （仅供参考）所有属性都假定为连续型属性对每个属性假定存在着几种可能的拆分值可能需要利用其他的工具, 如聚类, 获得可能的拆分值可以修改,以适用于类别型属性信息增益信息增益是一种基于熵的测度信息增益可定义如下: 已知: 被分好类的一组例子E(或称样本) E的一个划分P= {E1, ..., En} ig(E,P)=entropy(E)- ?i=1,...,nentropy(Ei)*|Ei|/|E| 信息理论中的Shannon熵一般不确定性问題所包含“不确定”(uncertainty) 的程度可以用数学來定量地描述吗? 信息理论:Shannon熵, 1940年代末硬币反正面的不确定性均匀不均匀数学描述 Shannon熵的数学描述假设样本空間 (Sample space) X 有 n 的基本事件 (events)，其基本事件 wi 的概率为 pi, i=1,2,…,n。我們記之為。 ,i=1,2,…n 表示不确定性不确定性函数应满足的条件 (i)对于固定的n, H是(p1,p2,…pn)的连续函数 (ii)对于pi=1/n, H应是n的单调递增函数 (iii)若某一试验分解成多个相继的试验，则原先的 H 值应为相应的各个 H 值的加权和 (wei