数据挖掘-2013春季.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关系数据库 面向对象数据库 文本数据 多媒体数据 异构数据 Web数据 数据库技术 机器学习技术 统计技术 神经网络技术 可视化技术 …… 有监督学习和无监督学习 有监督学习 (分类) 训练集是带有类标签的 新的数据是基于训练集进行分类的 无监督学习 (聚集) 训练集是没有类标签的 提供一组属性,然后寻找出训练集中存在类别或者聚集 分类过程:模型创建 分类过程 : 使用模型 一 个训 练 集 一棵关于“买计算机”的决策树实例 什么是一个好的聚类方法? 一个好的聚类方法要能产生高质量的聚类结果——簇,这些簇要具备以下两个特点: 高的簇内相似性 低的簇间相似性 聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现; 聚类方法的好坏还取决与该方法是能发现某些还是所有的隐含模式。 K-平均算法 应用聚类分析的例子 客户划分与市场销售: 帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划; 土地使用: 在一个陆地观察数据库中标识那些土地使用相似的地区; 保险: 对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户; 城市规划: 根据类型、价格、地理位置等来划分不同类型的住宅; PMML:预言模型标记语言 PMML 标准的由来 什么是PMML? PMML的主要目的 PMML的内容 PMML 标准的由来 PMML 最初由NCDM开发 National Center for Data Mining (NCDM) at the University of Illinois at Chicago (UIC) Robert Grossman 1997 Grossman,etc: The Management and Mining of Multiple Predictive Models Using the Predictive Modeling Markup Language (PMML), 1999 DMG(Data Mining Group)修正和扩充 DMG最初成员包括:Angoss, Magnify, NCDM,SPSS PMML1.0在1999年7月由DMG组织发布 DMG目的是开发数据挖掘标准 目前由9个成员组成:Angoss,IBM,Magnify,NCR,Oracle,SPSS,NCDM,Xchange,MINEit 当前PMML最新版本是2.0 什么是PMML? 定义 PMML称为预言模型标记语言(Predictive Model Markup Language),利用XML描述和存储数据挖掘模型, 是一个已经被W3C所接受的标准。 PMML2.0 Tree Model Naive Bayes General Regression Regression Model Sequences General Structure Asscocation Rules …… PMML的主要目的 允许应用程序和联机分析处理(OLAP)工具能从数据挖掘系统获得模型,而不用独自开发数据挖掘模块 能够收集使用大量潜在的模型,并且统一管理各种模型的集合 解决目前各数据挖掘系统之间封闭性的问题 可以在其它应用系统中间嵌入数据挖掘模型,解决孤立的知识发现问题 age? overcast student? credit rating? no yes fair excellent =30 40 yes 31..40 no no yes yes 根 内部 节点 叶子 分枝 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 K=2 Arbitrarily choose K object as initial cluster center Assign each objects to most similar center Update the cluster means Update the cluster means reassign reassign 数据库中可能包含一些数据对象,它们与数据的一般行为或模型很不一致,这些对象称作孤立点 孤立点包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等 孤立点(Outlier)挖掘 数据挖掘技术的产生 数据挖掘的概念与分类体系 数据挖掘的原理与方法 数据挖掘的相关国际标准 数据挖掘系统结构 * 数据库理论与技术 Theory and Technology of DataBase 数据挖掘 数据挖掘技术的产生 数据挖掘的概念与分类体系 数据挖掘的原理与方法 数据挖掘的相关

文档评论(0)

好文精选 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档