数据挖掘综述.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

5.4概念描述概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。

第30页,共51页,星期日,2025年,2月5日5.5偏差检测数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。第31页,共51页,星期日,2025年,2月5日6数据挖掘常用技术6.1人工神经网络6.2决策树6.3遗传算法6.4近邻算法6.5规则推导第32页,共51页,星期日,2025年,2月5日6.1人工神经网络优点1:为解决大复杂度问题提供了一种相对来说比较有效的简单方法。神经网络可以很容易的解决具有上百个参数的问题。优点2:很容易在并行计算机上实现,可以把他的节点分配到不同的CPU上并行计算。

第33页,共51页,星期日,2025年,2月5日第34页,共51页,星期日,2025年,2月5日在使用神经网络时的几点注意神经网络很难解释,目前还没有能对神经网络做出显而易见解释的方法学。神经网络会过度学习,在训练神经网络时一定要恰当的使用一些能严格衡量神经网络的方法,如测试集方法和交叉验证法等。这主要是由于神经网络太灵活、可变参数太多,如果给足够的时间,他几乎可以“记住”任何事情。

第35页,共51页,星期日,2025年,2月5日在使用神经网络时的几点注意除非问题非常简单,训练一个神经网络可能需要相当可观的时间才能完成。当然,一旦神经网络建立好了,在用它做预测时运行时还是很快得。建立神经网络需要做的数据准备工作量很大。

第36页,共51页,星期日,2025年,2月5日第1页,共51页,星期日,2025年,2月5日1数据挖掘技术的由来1.1网络技术的高度发展1.2数据爆炸但知识贫乏1.3支持数据挖掘技术的基础1.4从商业数据到商业信息的进化第2页,共51页,星期日,2025年,2月5日1.2数据爆炸但知识贫乏

激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。第3页,共51页,星期日,2025年,2月5日1.3支持数据挖掘技术的技术基础

海量数据搜集强大的多处理器计算机数据挖掘算法第4页,共51页,星期日,2025年,2月5日1.4从商业数据到商业信息的进化进化阶段商业问题支持技术产品厂家产品特点数据搜集

(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBM,CDC提供历史性的、静态的数据信息数据访问

(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS),结构化查询语言(SQL),ODBCOracle、Sybase、Informix、IBM、MicrosoftOracle、Sybase、Informix、IBM、Microsoft在记录级提供历史性的、动态数据信息数据仓库;

决策支持

(90年代)“在新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)、多维数据库、数据仓库Pilot、Comshare、Arbor、Cognos、Microstrategy在各种层次上提供回溯的、动态的数据信息数据挖掘

(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法、多处理器计算机、海量数据库Pilot、Lockheed、IBM、SGI、其他初创公司提供预测性的信息第5页,共51页,星期日,2025年,2月5日2数据挖掘的定义2.1技术上的定义2.2商业角度的定义2.3数据挖掘与传统分析方法的区别第6页,共51页,星期日,2025年,2月5日2.1数据挖掘在技术上的定义数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;第7页,共5

文档评论(0)

xiaoyao2022 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档