数据挖掘建模——分类方法—方晓萍PPT.ppt

数据挖掘建模——分类方法—方晓萍PPT.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘建模——分类方法—方晓萍PPT

;数学建模的思路与步聚;美赛建模;了解实际背景;在合理与简化之间作出折中;模型求解;模型分析;模型检验;模型应用;数学建模的思路与步聚;;首要原则模型(first-principle models) 数据挖掘;首要原则模型;首要原则模型; 运用基于计算机的方法(包括新技术),从数据中获得有用知识的整个过程,就叫做数据挖掘。;通过数据挖掘分析代词的使用特色,来进行作者辨析;表1 前八十回词项出现次数(频数) ;;1、陈述问题 2、搜集数据 3、进行数据预处理 4、评估模型(挖掘数据) 5、解释模型和得出结论;1、陈述问题 2、搜集数据 ……;1、陈述问题 2、搜集数据 3、进行数据预处理 4、评估模型(挖掘数据) 5、解释模型和得出结论;1. 数据审核 2. 数据筛选 3. 数据无量纲化、标准化;无量纲化方法;2.平均数比率法(均值化)、比重法 特点:意义直观、明确;对比标准利用了所有的原始数据。;3. 标准化法 (1)标准差标准化 标准化处理:将变量值转化为数学期望为0,方差为1的标准化数值。 v(i)=(v[i]-mean[v])/sd(v) 经标准化处理后的数值围绕着0上下波动,数值大于0的说明高于平均水平,数值小于0的说明低于平均水平。;3. 标准化法 (2)小数缩放 小数缩放移动小数点,但仍然保留大多数原始数值。常见的缩放是使值在-1到1的范围内。小数缩放可以表示为等式: V’(i)=v(i)/10k k是保证|v’(i)|的最大值小于1的最小比例。;3. 标准化法 (3)最小—最大标准化 v’(i)=(v(i)-min[v(i)])/(max[v(i)]-min[v(i)]) 其中,特征v的最小值和最大值是通过一个集合自动计算的,或者是通过特定领域的专家估算出来的。; 标准化对若干数据挖掘方法都很有用。且标准化并不是一次性或一个阶段的事件。如果一种方法需要标准化数据,就要为所选的数据挖掘技术对可用的数据进行转换和准备,还必须对数据挖掘的所有其他阶段、所有的新数据和未来数据进行同样的数据标准化。因此,必须把标准化的参数和方法一起保存。;1、陈述问题 2、搜集数据 3、进行数据预处理 4、评估模型(挖掘数据) 5、解释模型和得出结论;分类—发现某个预测学习功能,将一个数据项分类到几个预定义类中的一个。 回归—发现某个预测学习功能,将一个数据项映射到一个真实值预测变量上。 聚类—一个常见的描述性任务,用于确定有限的一组类别或聚类,来描述数据。 总结概括—发现一个本地模型,来描述变量之间或者数据集或其一部分的特征值之间的重要相关性。 变化和偏差检测—发现数据集中最重要的变化。;描述、评价 分类、判别 预测 决策 规划、优化 。。。。。。;例:信用风险评价分类问题中——银行贷款员需要分析数据,来弄清哪些贷款申请者是安全的,哪些是有风险的(将贷款申请者分为“安全”和“有风险”两类) ; 例 对10位应聘者做智能检验。3项指标X、Y和Z分别表示数学推理能力、空间想象能力和语言理解能力。其得分如下,选择合适的方法对应聘者进行分类。; 根据美国等20个国家和地区的信息基础设施的发展状况进行分类。 Call—每千人拥有的电话线数; movecall—每千人户居民拥有的蜂窝移动电话数; fee—高峰时期每三分钟国际电话的成本; computer—每千人拥有的计算机数; mips—每千人计算机功率(每秒百万指令); net—每千人互联网络户主数。 ;分 类;分 类;分类问题;聚类分析 判别分析、Bayes分类 决策树分类 支持向量机 k-近邻算法分类 基于关联规则的分类 人工神经网络 集成学习分类(Bagging + Boosting) 等等;聚类分析;聚类分析; 例 对10位应聘者做智能检验。3项指标X、Y和Z分别表示数学推理能力、空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。;我们的问题是如何来选择样本间相似性的测度指标,如何将相似的类连接起来?;一、相似性的测度 ;(一)、常用的距离;明氏距离;;明氏距离有以下两个缺点:;(2) 标准化的欧氏距离;; 由印度著名统计学家马哈拉诺比斯(Mahalanobis)所定义的一种距离,其计算公式为:;马氏距离又称为广义欧氏距离。 马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,此时马氏距离就是标准化的欧氏距离。 马氏距离不受指标量纲及指标间相关性的影响 ;(二)变量间相似系数的算法;§3 各种聚类方法;(一)系统聚类法;系统聚类法的基本步骤: 1.???计算n个样品两两间的距离 ,记作D=

文档评论(0)

djdjix + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档