- 1、本文档共151页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘技术方法切p151
商务智能 分类和预测 分类 对离散数据的分类称为分类,对数值数据的分类称为预测。 分类要解决的问题是为一个事件或对象归类,即确定一个特定的对象属于哪一类。分类函数或分类模型(分类器) 分类模型是通过那些已知历史数据训练出来的。 这里用于建立模型的数据称为训练集,通常是已经掌握的历史数据。 在训练集中每个对象都赋予一个类别的标记,不同的类别具有不同的标记。 分类就是通过分析训练集中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据对象进行分类。 分类数据 The data used to build a classification model consists of A set of records. Each record has the same number of fields. One field in these record contains indicators of classes which records belong to. This field is called target field. Other fields are called independent fields which describe the individual objects represented by the records. 决策表实例 决策树 are widely used in data mining. were developed in machine learning and statistics. are used to build classification and prediction models. are widely available. 使用决策树进行分类 决策树 一个树形的结构 内部节点上选用一个属性进行分割 每个分叉都是分割的一个部分 叶子节点表示一个分类 决策树生成算法分成两个步骤 树的生成 开始,数据都在根节点 递归的进行数据分片 树的修剪:去掉一些可能是噪音或者异常的数据 决策树使用: 对未知数据进行分割 按照决策树上采用的分割属性逐层往下,直到叶子节点 决策树算法 基本算法(贪心算法) 自上而下分而治之的方法 开始时所有的实例都在根节点 属性都是分类型 (如果是连续的,将其离散化) 所有记录用所选属性递归的进行分割 属性的选择是基于一个启发式规则或者一个统计的度量 (如信息增益) 停止分割的条件 一个节点上的实例都属于同一个类别; 没有属性可以再用于对数据进行分割 属性选择的统计度量 信息增益—Information gain (ID3/C4.5) 所有属性假设都是分类型字段 经过修改之后可以适用于数值型字段 基尼指数—Gini index (IBM Intelligent Miner) 能够适用于分类和数值字段 其他 信息增益度度量(ID3/C4.5) 任意样本分类的期望信息: I(s1,s2,……,sm)=-∑Pi log2(pi) (i=1..m) 其中,数据集为S,m为S的分类数目, Pi Ci为某分类标号,Pi为任意样本属于Ci的概率, si为分类Ci上的样本数 由A划分为子集的熵: E(A)= ∑j(|s1j|+ ……+|smj|)/|s| * I(s1j, ……,smj) A为属性,具有V个不同的取值 信息增益:Gain(A)= I(s1,s2,……,sm) - E(A) 训练集 使用信息增益进行属性选择 Class P: buys_computer = “yes” Class N: buys_computer = “no” I(p, n) = I(9, 5) =0.940 Compute the entropy for age: Hence Similarly 决策树 基尼指数(Gini Index) 集合T包含n个类别的记录,那么其Gini指数就是 pj 类别j出现的频率 如果集合T分成两部分 N1 and N2 。那么这个分割的Gini就是 提供最小Ginisplit 就被选择作为分割的标准. Pruning Tree 目的: 消除决策树的过拟合(Over Fitting)问题 实质:消除训练集中的异常和噪声 两种方法: 先剪枝法(Public 算法) 后剪枝法(Sprint 算法) 过拟合问题 误分类率 常用的决策树算法 ID3, C4.5, C5.0 (Ross Quinlan 1986,1993) CART (Leo Briemen, et al 1984) CHAID (J. A. Hartigan, 1975) 银行信用卡市场分析员的市场促销(1) 确定促销最理想
文档评论(0)