数据挖掘基本原理.课件.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分类过程示意 训练集 分类学习 训练集 分类器 IF rank = ‘professor’ OR years 6 THEN tenured = ‘yes’ Jef is YES! 分类中的决策树(Decision Tree)归纳 决策树 类似于流程图的树型结构 内部节点代表对某个属性的一次测试 分支代表测试的输出结果 叶节点代表分类标签或分布 决策树的生成包括两个阶段 树的创建 首先, 所有训练样本都位于根节点 递归地基于选择属性来划分样本集 树的修剪 识别并删除那些反映噪声或孤立点的分支 应用决策树: 对未知样本进行分类 在决策树上测试样本的各个属性值 决策树示意 age? overcast student? credit rating? no yes fair excellent =30 40 no no yes yes yes 30..40 示例:是否购买计算机? 聚类的基本概念 基本定义 将数据对象集划分成事先未知的分组或类别 聚类的原则:类内相似度高,类间相似度低 相似度一般为某种距离函数D(i,j) 聚类既可以作为独立分析工具考察数据分布结构,也可以作为其他分析方法的预处理步骤 很不幸,对聚类结果的评价一般都是主观的 基本分类 将数据对象集划分成事先未知的分组或类别 聚类示意 基于欧氏距离的三维空间中的聚类 A1 A2 B1 x y z 从算法到应用 数据挖掘的基本原理 TERADATA广州办事处 乔梁 2005年10月 报 告 内 容 数据挖掘的基本概念 数据挖掘的基本算法 数据挖掘实施方法论 总结与讨论 数据挖掘的基本概念 数据挖掘的基本算法 数据挖掘实施方法论 总结与讨论 改变未来世界的十大新兴技术 《Technology Review》(麻省理工学院2002年1月出刊) 机器与人脑的接口 塑胶晶体管 数据挖掘(Data Mining) 数字权利管理 生物测定学(Biometrics) 语言识别处理 微光学技术(Microphotonics) 解开程序代码(Untangling Code) 机器人设计 微应用流体学(Microfluidics) 什么是数据挖掘? Data Information Knowledge Wisdom 存在太多数据挖掘的定义,但基本上有这样一种描述结构 To find / discover / extract / dredge / harvest 、、、 Interesting / novel / useful / implicit / actable / meaningful 、、、 Information / knowledge / patterns / trends / rules / anomalies 、、、 In massive data / large data set / large database / data warehouse 、、、 Data + context Information + rules Knowledge + experience 为什么会出现数据挖掘? 数据爆炸性增长是数据挖掘技术应运而生的根本原因。 只见树木,不见森林(Drowning in data but starving for information) 计算复杂度 数据管理问题 数据类型的多样性 处理大容量数据是 数据挖掘技术区别 于其他数据分析方 法的唯一标志吗? 其他数据分析方法:商业智能 E.F.Codd的数据分析模型 绝对模型(Categorical Model):依据预定义路径寻找原因,如查询 解释模型(Exegetical Model):依据多层次路径寻找原因,如多维分析 思考模型(Contemplative Model):参数化路径,如场景分析 公式模型(Formulaic Model):模型化路径,如数据挖掘 Reporting Ad Hoc Queries Predictive Modeling What happened ? Why did it happen ? What will happen ? ROI 应用复杂性 Stage 3 Stage 2 Stage 1 Human Discovery Machine-assisted Discovery 现象 = 模型 + 误差 数据挖掘寻找的是模型 ! 其他数据分析方法:统计学 从处理数据的角度看、、、 数据规模不同 数据来源不同:观测数据(Secondary Analysis) VS 试验数据(Primary Analysis) 数据类型不同(结构化数据、半结构化数据、非结构化数据) 从分析思想的角度看 更关注实证性分析(Empirical Analysis)而

您可能关注的文档

文档评论(0)

liuxiaoyu98 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档