数据挖掘论第一章.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘:概念与技术 数据挖掘导论 Pang-ning Tan, Michael Stieinbach, and Vipin Kumar著 Pearson Education LTD. 范明 等译 人民邮电出版社 主要参考书 Jiawei Han, Micheline Kamber and Jian Pei Data Mining: Concepts and Techniqus (third Edition), Monrgan Kaufmann Publishers Inc., 2012 范明, 孟小峰译 数据挖掘:概念与技术(第二版) 机械工业出版社, 2007 Jiawei Han 在数据挖掘领域做出杰出贡献的郑州大学校友——韩家炜 第1章 绪论 英文幻灯片制作: Tan, Steinbach, Kumar 中文幻灯片编译:范明 为什么挖掘数据?(商业) 大量数据被收集,存储在数据库\数据 仓库中 Web data, e-commerce purchases at department/ grocery stores Bank/Credit Card transactions 计算机越来越便宜,功能越来越 强大 竞争压力越来越大 Provide better, customized services for an edge (e.g. in Customer Relationship Management) 为什么挖掘数据?(科学) 数据以极快的速度收集和存储 (GB/hour) remote sensors on a satellite telescopes scanning the skies microarrays generating gene expression data scientific simulations generating terabytes (千兆字节) of data 传统的技术难以处理这些 raw data 数据挖掘可能帮助科学家 in classifying and segmenting data in Hypothesis Formation 挖掘大型数据集:动机 常常有些信息“隐藏”在数据中, 并非显而易见的 人分析需要数周\数月, 才能发现有用的信息 许多数据根本未曾分析过 什么是数据挖掘 许多不同定义 本书定义 在大型数据存储库中,自动地发现有用信息的过程。 Exploration analysis, by automatic or semi-automatic means, of large quantities of data in order to discover meaningful patterns Jiawei Han的定义 从大型数据集中提取有趣的 (非平凡的, 蕴涵的, 先前未知的并且是潜在有用的) 信息或模式 一个类似于Jiawei Han的定义 Non-trivial extraction of implicit, previously unknown and potentially useful information from data 什么(不)是数据挖掘 数据挖掘与KDD 数据挖掘与知识发现 数据挖掘是数据库中知识发现(knowledge discovery in database, KDD)不可缺少的一部分 KDD是将未加工的数据转换为有用信息的整个过程 引发数据挖掘的挑战1 可伸缩 海量数据集越来越普遍 数千兆字节(terabytes) 为处理海量数据,算法必须是可伸缩的(scalable) 可伸缩可能还需要新的数据结构,以有效的方式访问个别记录 例如,当要处理的数据不能放进内存时,可能需要非内存算法 使用抽样技术或开发并行和分布算法也可以提高可伸缩程度 挑战2 高维性 具有数以百计或数以千计属性的数据集 生物信息学:涉及数千特征的基因表达数据 不同地区温度测量:维度(特征数)的增长正比于测量的次数 为低维数据开发的数据分析技术不能很好地处理高维数据 某些数据分析算法,随着维度(特征数)的增加,计算复杂性迅速增加 挑战3 异种数据和复杂数据 传统的数据分析方法只处理包含相同类型属性的数据集 非传统的数据类型的出现需要能够处理异种属性的技术 半结构化文本和超链接的Web页面集 具有序列和三维结构的DNA数据 地球表面不同位置上的时间序列测量值(温度、气压等)的气象数据 数据中的联系 如时间和空间的自相关性、图的连通性、半结构化文本和XML文档中元素之间的父子联系 挑战4 数据的所有权与分布 数据地理上分布在属于多个机构的资源中 需要开发分布式数据挖掘技术 分布式数据挖掘算法面

文档评论(0)

138****7331 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档