- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
智能计算-分类与预测 分类和预测 什么是分类?什么是预测 关于分类和预测的一些问题 使用决策树进行分类 用Excel来演示决策树 用Matlab演示决策树 分类和预测 分类 类标签属性的确定 基于训练集形成一个模型,训练集中的类标签是已知的。使用该模型对新的数据(测试集)进行分类 预测: 对连续性字段进行建模和预测。 典型应用 信用评分 目标市场定位 医疗诊断 治疗结果分析 分类的两个步骤 模型创建: 描述一组预先确定的类 每一条记录都属于一个预先定义的类别,我们使用类标签属性来标识类别。 用于创建模型的数据集叫:训练集 模型可以用分类规则,决策树,或者数学方程的形式来表达。 模型使用: 用创建的模型预测未来或者类别未知的记录的类别 估计模型的准确率 使用创建的模型在一个测试集上进行预测,并将结果和实际值进行比较 准确率是测试集中被正确分类的对象的比率 测试集和训练集是独立的。 分类过程(1):模型创建 分类过程 (2): 使用模型 有监督和无监督学习 有监督学习 (分类) 训练集是带有类标签的 新的数据是基于训练集进行分类的。 无监督学习 (聚类) 训练集的类标签未知。 给定一组测度(度量)或观察,然后寻找出训练集中存在类别或者聚类。 分类和预测 什么是分类?什么是预测 关于分类和预测的一些问题 使用决策树进行分类 用Excel来演示决策树 用Matlab演示决策树 关于分类和预测的一些问题 (1): 数据准备 数据清洗 对数据进行预处理,消除噪音,处理缺失值。 相关性分析 (属性选择) 去掉不相关或者冗余的属性 数据转换 规范化或者对数据进行标准化 关于分类和预测的问题 (2): 评估分类方法 预测准确率 速度 创建速度 使用速度 强壮性 处理噪音和丢失值 伸缩性(规模化) 对磁盘驻留数据的处理能力 可解释性: 对模型的可理解程度。 规则好坏的评价 决策树的大小 分类规则的简明性 分类和预测 什么是分类?什么是预测 关于分类和预测的一些问题 使用决策树进行分类 用Excel来演示决策树 用Matlab演示决策树 使用决策树归纳进行分类 决策树 一个类似流程图的树结构 内部节点表示在一个属性上的测试 每个分枝表示测试的结果 叶子节点表示类或一个类分布 决策树生成算法分成两个步骤 树的创建 初始时,所有的训练例子都在根节点 根据被选属性,递归地对例子进行划分 树的修剪 识别并去掉那些反映噪音或者异常的分枝 决策树使用: 对未知样本进行分类 对照决策树测试样本的属性值 训练集 输出: 关于购买电脑的一棵决策树 决策树算法 基本算法(贪心算法) 树的建立是自上而下递归的分而治之的方法 初始时,所有的训练例子都在根节点 属性都是类别字段 (如果是连续的,将其离散化) 所有例子根据所选属性递归地进行划分 属性的选择是基于一个启发式规则或者一个统计的度量 (如, information gain, 信息增益) 停止划分的条件 给定节点的所有样本都属于同一个类 没有剩余的属性可以用于进一步划分样本 分枝没有样本可划分了 属性选择的统计度量 Information gain (ID3/C4.5) 所有属性都假定为类别型属性 经过修改之后可以适用于连续型属性 Gini index (IBM IntelligentMiner) (仅供参考) 所有属性都假定为连续型属性 对每个属性假定存在着几种可能的拆分值 可能需要利用其他的工具, 如聚类, 获得可能的拆分值 可以修改,以适用于类别型属性 信息增益 信息增益是一种基于熵的测度 信息增益可定义如下: 已知: 被分好类的一组例子E(或称样本) E的一个划分P= {E1, ..., En} ig(E,P)=entropy(E)- ?i=1,...,nentropy(Ei)*|Ei|/|E| 信息理论中的Shannon熵 一般不确定性问題所包含“不确定”(uncertainty) 的程度可以用数学來定量地描述吗? 信息理论:Shannon熵, 1940年代末 硬币反正面的不确定性 均匀 不均匀 数学描述 Shannon熵的数学描述 假设样本空間 (Sample space) X 有 n 的基本事件 (events),其基本事件 wi 的概率为 pi, i=1,2,…,n。我們記之為 。 ,i=1,2,…n 表示不确定性 不确定性函数应满足的条件 (i)对于固定的n, H是(p1,p2,…pn)的连续函数 (ii)对于pi=1/n, H应是n的单调递增函数 (iii)若某一试验分解成多个相继的试验,则原先的 H 值应为相应的各个 H 值的加权和 (wei
文档评论(0)