数据挖掘论第一章.pptVIP

下载本文档

5
0
约1.18万字
约 47页
2019-03-18 发布于浙江
举报
版权申诉

数据挖掘论第一章.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘：概念与技术数据挖掘导论 Pang-ning Tan, Michael Stieinbach, and Vipin Kumar著 Pearson Education LTD. 范明等译人民邮电出版社主要参考书 Jiawei Han, Micheline Kamber and Jian Pei Data Mining: Concepts and Techniqus (third Edition), Monrgan Kaufmann Publishers Inc., 2012 范明, 孟小峰译数据挖掘:概念与技术（第二版）机械工业出版社, 2007 Jiawei Han 在数据挖掘领域做出杰出贡献的郑州大学校友——韩家炜第1章绪论英文幻灯片制作： Tan, Steinbach, Kumar 中文幻灯片编译：范明为什么挖掘数据？(商业) 大量数据被收集,存储在数据库\数据仓库中 Web data, e-commerce purchases at department/grocery stores Bank/Credit Card transactions 计算机越来越便宜，功能越来越强大竞争压力越来越大 Provide better, customized services for an edge (e.g. in Customer Relationship Management) 为什么挖掘数据？(科学) 数据以极快的速度收集和存储 (GB/hour) remote sensors on a satellite telescopes scanning the skies microarrays generating gene expression data scientific simulations generating terabytes (千兆字节) of data 传统的技术难以处理这些 raw data 数据挖掘可能帮助科学家 in classifying and segmenting data in Hypothesis Formation 挖掘大型数据集：动机常常有些信息“隐藏”在数据中, 并非显而易见的人分析需要数周\数月, 才能发现有用的信息许多数据根本未曾分析过什么是数据挖掘许多不同定义本书定义在大型数据存储库中，自动地发现有用信息的过程。 Exploration analysis, by automatic or semi-automatic means, of large quantities of data in order to discover meaningful patterns Jiawei Han的定义从大型数据集中提取有趣的 (非平凡的, 蕴涵的, 先前未知的并且是潜在有用的) 信息或模式一个类似于Jiawei Han的定义 Non-trivial extraction of implicit, previously unknown and potentially useful information from data 什么(不)是数据挖掘数据挖掘与KDD 数据挖掘与知识发现数据挖掘是数据库中知识发现（knowledge discovery in database, KDD）不可缺少的一部分 KDD是将未加工的数据转换为有用信息的整个过程引发数据挖掘的挑战1 可伸缩海量数据集越来越普遍数千兆字节(terabytes) 为处理海量数据，算法必须是可伸缩的（scalable）可伸缩可能还需要新的数据结构，以有效的方式访问个别记录例如，当要处理的数据不能放进内存时，可能需要非内存算法使用抽样技术或开发并行和分布算法也可以提高可伸缩程度挑战2 高维性具有数以百计或数以千计属性的数据集生物信息学：涉及数千特征的基因表达数据不同地区温度测量：维度（特征数）的增长正比于测量的次数为低维数据开发的数据分析技术不能很好地处理高维数据某些数据分析算法，随着维度（特征数）的增加，计算复杂性迅速增加挑战3 异种数据和复杂数据传统的数据分析方法只处理包含相同类型属性的数据集非传统的数据类型的出现需要能够处理异种属性的技术半结构化文本和超链接的Web页面集具有序列和三维结构的DNA数据地球表面不同位置上的时间序列测量值（温度、气压等）的气象数据数据中的联系如时间和空间的自相关性、图的连通性、半结构化文本和XML文档中元素之间的父子联系挑战4 数据的所有权与分布数据地理上分布在属于多个机构的资源中需要开发分布式数据挖掘技术分布式数据挖掘算法面