数据挖掘chap1序论.pptVIP

下载本文档

0
0
约8.7千字
约 36页
2017-03-29 发布于四川
举报
版权申诉

数据挖掘chap1序论.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘chap1序论

第 1 章数据挖掘 ERP实验中心程春明 chengcm@ Tel 2010.3 1.1 引言什么激发了数据挖掘需要是发明之母数据爆炸问题计算机技术快速发展数据库技术的发展 Internet快速发展自动数据收集工具和成熟的数据库技术使得大量的数据被收集，存储在数据库、数据仓库或其他信息库中以待分析。每年约160TB 1 PB=1024 TB=1024*1024 GB 我们数据丰富，但信息贫乏 “数据坟墓” 数据挖掘和知识发现知识发现（Knowledge Discover in Database，KDD ）从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。(M.Goebel and L.Gruenwald 1999) KDD的出现基于数据库的知识发现（KDD）一词首次出现在1989年举行的国际人工智能联合大会IJCAI-89 Workshop。 1995年在加拿大蒙特利尔召开了第一届KDD国际学术会议（KDD’95）。由Kluwers Publishers出版，1997年创刊的《Knowledge Discovery and Data Mining》是该领域中的第一本学术刊物。数据挖掘视为知识发现(KDD)的一个步聚数据挖掘——知识发现的核心 KDD的步骤从KDD对数据挖掘的定义中可以看到当前研究领域对数据挖掘的狭义和广义认识确定和逐步理解应用领域选择所研究的数据集选择补充数据集。集成这些数据数据集成数据编码、清理重复和错误数据、变换数据。开发模型、构建假设。（确定要发现的知识类型）选择适当的数据挖掘算法（找到感兴趣的模式）解释结果（可视化）检验结果管理发现的知识数据挖掘定义数据挖掘（Data Mining，DM）定义：从大量的数据中提取或“挖掘”感兴趣的知识（规则，规律，模式，约束）。知识提炼数据/模式分析数据考古数据捕捞、信息收获等等。课本中的定义数据挖掘被定义为找出数据中的模式的过程。这个过程必须是自动的或(通常)半自动的。数据的总量总是相当可观的，但从中发现的模式必须是有意义的，并能产生出一些效益,通常是经济上的效益。如何表示数据模式? 有价值的模式能够让我们在新数据上做出非凡的预测。表示一个模式有两种极端方法：一种是内部结构很难被理解的黑匣子；一种是展示模式结构的透明的匣子，它的结构揭示了模式的结构。我们假设两种方法都能做出好的预测，它们的区别在于挖掘出的模式能否以结构的形式表现，这个结构是否能够经得起分析，理由是否充分，能否用来形成未来的决策。如果模式能够以显而易见的方法获得决策结构，我们就称它们为结构模式，换句话说，它们能帮助解释有关数据的一些现象。这本书是有关寻找、描述存在于数据里结构模式的技术。描述结构模式给出隐形眼镜的一组数据。这组数据是验光师针对病人的情况做出的诊断：使用软的隐形眼镜，硬的隐形眼镜，或不能佩戴隐形眼镜。 1.2 数据挖掘的研究领域和方向数据库、数据仓库与数据分析统计学机器学习数据挖掘与数据分析数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析，以求最大化地开发数据资料的功能，发挥数据的作用。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析与数据挖掘密切相关，但数据挖掘往往倾向于关注较大型的数据集，较少侧重于推理，且常常采用的是最初为另外一种不同目的而采集的数据。基于数据库和数据仓库数据挖掘是一个动态过程，比数据分析更智能的使用数据仓库。它将数据宽度、深度和体积作为重要的三个方面来考虑。宽度（width），数据记录的属性。深度（width），数据库实体的实例。体积（width），数据库实体。数据立方体数据挖掘与统计学统计学分析系统规划的实验，回答完全以公式方式表达的科学问题。数据少、质量高、可得到数据收集和分析的最佳方法，并可证明。现实数据：规模大（观测值、变量），其他活动的副产品，数据噪声。区别：形式的统计学推断是假设驱动的，即形成假定并在数据上验证它。 DM是发现驱动的，即自动地从数据中提取模式和假设。 DM是数据驱动，统计学是人驱动的。 DM的目标是提取可以容易转换成逻辑规则或可视化表示的定性模型，以人为中心，与人机界面结合数据挖掘与机器学习机器学习( Machine Learning)研究构建由经验学习的系统。是研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演译。机