- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
                        查看更多
                        
                    
                数据挖掘学习小结.ppt
                    PPT DESIGN PPT DESIGN 数据挖掘学习小结   报告人:王晓鹏    2013年9月30日 内容 研究背景 知识发现 什么是数据挖掘 数据挖掘的方法 数据挖掘所使用的技术 数据挖掘利用的思想 数据挖掘的主要问题  研究背景 爆炸式增长的信息在给人们带来方便的同时,也带来了一系列的问题,如信息过量、信息真伪、信息安全、信息形式多样化等。 虽然成熟的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法对未来进行预测。     快速增长的海量数据,存放在大型和大量数据库中,没有强有力的工具,理解他们已远远超出了人的能力。数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识金砖。  知识发现(KDD)       一些人把数据挖掘视为知识发现的一个基本步骤,而另外大多数人则把数据挖掘视为数据中的知识发现(KDD)的同义词。             知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。 1.定义 结果解释和评价 数据挖掘阶段 数据准备 知识发现 数据预处理 数据变换 数据选取 确定发现任务的操作对象,即目标对象 消减数据维数或降维 包括消除噪声、推导计算缺值数据、 消除重复记录、完成数据类型转换等 决定使用什么样的开采算法。 确定开采的任务,如数据总结、分类、 聚类、关联规则发现或序列模式发现 等。 数据挖掘阶段发现的模式,经过用户 和机器的评价,可能存在冗余或无关 的模式,这时需要剔除,使用户更容 易理解和应用。 2.知识发现过程     数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们事先不知道的、但又是潜在有用的信息和知识的过程。 1. 定义 什么是数据挖掘   数据源是真实的、大量的、含噪声的;   发现的是用户感兴趣的知识;   发现的知识要可接受、可理解、可运用;   这些知识是相对的,是有特定前提和约束条件的,在特定领域中具有实际应用价值。    什么是数据挖掘 2. 定义中所包含的信息 理解数据和数据的来源(understanding); 获取相关知识与技术(acquisition); 整合与检查数据(integration and checking); 去除错误或不一致的数据(data cleaning); 建立模型和假设(model and hypothesis development); 实际数据挖掘工作(data mining); 测试和验证挖掘结果(testing and verification); 解释和应用(interpretation and use)。 3. 数据挖掘的完整步骤 什么是数据挖掘 数据挖掘的方法 数据挖掘的方法主要有  特征化与区分  频繁模式、关联和相关性  分类与回归  聚类分析  离群点分析 数据挖掘的方法 1.特征化与区分:数据特征化是目标类数据的一般特征或特征的汇  总。通常,通过查询来收集对应于用户指定类的数据。数据区分是将目标类数据对象的一般特征与一个或多个对比类对象的一般特征进行比较。目标类和对比类可以由用户指定,而对应的数据对象可以通过数据库查询检索。 数据特征化例子 例1.要汇总一年之内在沃尔玛超市花费50000元以上的顾客特征,结果可能是顾客的概况,如年龄在40~50岁、有工作、有很好的信誉等级。 数据区分例子 例2.用户在使用某一软件之前,可能希望将上一年销售增加10%的软件产品于同一时期销售至少下降30%的软件产品进行比较。 2.频繁模式、关联和相关性:频繁模式是在数据中频繁出现的模 式。存在多种类型的频繁模式,包括频繁项集、频繁子序列和频繁 子结构。挖掘频繁模式导致发现数据中有趣的关联和相关性。如果 一个关联规则不能同时满足最小支持度阈值和最小置信度阈值,则 它认为是无趣的而被丢弃。  例3.频繁项集一般是指频繁地在事物数据集中一起出现的商品的集 合,如小卖部中被许多顾客频繁地一起购买的牛奶和面包。  例4.频繁出现的子序列,如顾客倾向于先购买电脑,再购买打印机, 然后再购买打印纸这样的模式就是一个序列模式。  例5.关联分析,如假设你作为某超市的经理,你想知道哪些商品经 常一块被购买,通过分析购物篮你很容易发现这一现象。 数据挖掘的方法 3.分类与回归:分类是这样的过程,它找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象的类标号。分类预测类别(离散的、无序的)标号,而回归建立连续函数模型。   例7. 知道父代身高,推测子代身高。研究表明,子代身高有回到父辈平均身高的趋势,一般高个子父辈的儿子们的平均高度要低于父辈的平均身高,低个子父辈的儿子们的平均高度要比父辈的高,
                 原创力文档
原创力文档 
                        

文档评论(0)