数据DATA挖掘学习小结.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘学习小结;内容;研究背景;知识发现(KDD);结果解释和评价; 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们事先不知道的、但又是潜在有用的信息和知识的过程。; 数据源是真实的、大量的、含噪声的; 发现的是用户感兴趣的知识; 发现的知识要可接受、可理解、可运用; 这些知识是相对的,是有特定前提和约束条件的,在特定领域中具有实际应用价值。 ;理解数据和数据的来源(understanding); 获取相关知识与技术(acquisition); 整合与检查数据(integration and checking); 去除错误或不一致的数据(data cleaning); 建立模型和假设(model and hypothesis development); 实际数据挖掘工作(data mining); 测试和验证挖掘结果(testing and verification); 解释和应用(interpretation and use)。;数据挖掘的方法;数据挖掘的方法;2.频繁模式、关联和相关性:频繁模式是在数据中频繁出现的模 式。存在多种类型的频繁模式,包括频繁项集、频繁子序列和频繁 子结构。挖掘频繁模式导致发现数据中有趣的关联和相关性。如果 一个关联规则不能同时满足最小支持度阈值和最小置信度阈值,则 它认为是无趣的而被丢弃。 例3.频繁项集一般是指频繁地在事物数据集中一起出现的商品的集 合,如小卖部中被许多顾客频繁地一起购买的牛奶和面包。 例4.频繁出现的子序列,如顾客倾向于先购买电脑,再购买打印机, 然后再购买打印纸这样的模式就是一个序列模式。 例5.关联分析,如假设你作为某超市的经理,你想知道哪些商品经 常一块被购买,通过分析购物篮你很容易发现这一现象。;3.分类与回归:分类是这样的过程,它找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象的类标号。分类预测类别(离散的、无序的)标号,而回归建立连续函数模型。 ;4. 聚类分析:聚类分析数据对象,而不考虑类标号。对象根据最大化类内相似性、最小化类间相似性的原则进行聚类或分组。;5.离群点分析:数据集中可能包含一些数据对象,它们与数据的一般行为或模型不一致,这些数据对象是离群点。离群点数据分析称做离??点分析或异常挖掘。;数据挖掘所使用的技术;1)统计学:统计学研究数据的收集、分析、解释和表示。;3) 数据库系统与数据库:数据库系统研究、关注为单位和最终用户创建、维护和使用数据库。数据库系统在处理非常大的、相对结构化的数据集方面具有高度可伸缩性。 ;2) 机器学习:机器学习考察计算机如何基于数据学习或提高它们的性能。其主要研究领域是计算机程序基于数据自动地学习识别复杂的模式,并作出智能的决断。它包括:监督学习、无监督学习、半监督学习、主动学习。 ;4) 信息检索:信息检索是搜索文档或文档中信息的科学,它的典型方法采用概率模型。 ;5)此外还有可视化、算法、高性能计算和许多应用领域的大量技术。;数据挖掘主要利用的思想 来自统计学的抽样、估计和假设检验; 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论; 最优化、进化计算、信息论、信号处理、可视化和信息检索; 需要数据库系统提供有效的存储、索引和查询处理支持,需要高性能(并行)或分布式计算的技术处理海量的数据集。;数据挖掘的主要问题;

文档评论(0)

xina171127 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档