网站大量收购独家精品文档,联系QQ:2885784924

最新第五章-机器学习.ppt

  1. 1、本文档共75页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
最新第五章-机器学习.ppt

Motivation: Why data mining? 动机, 背景 发生在 数据库上的 ”成长的烦恼” 数据库的发展给自己引出了麻烦 。 数据爆增 103T 没有数据时 千方百计搜集管理数据,上世纪60-70年代 层次库, 网状库, 有了数据 扩充能力,搜集管理更多数据,上世纪80-90年代 关系库,OODB….. 数据太多了,管不下来。上世纪-90年代 –现在 KDD ,DM….. (作科研 找项目也类似?) We are Data Rich but Information Poor 人们给KDD下过很多定义,内涵也各不相同,目前公认的定义是由Fayyad等人提出的。 所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的高级处理过程。 数据选择:目的是确定与任务相关目标数据,根据用户需要,从原始数据库中抽取一组有用的数据; 数据预处理:包括消除噪声、推导计算并补充缺值数据、消除重复记录、完成数据类型转换等。例如,把连续值数据转换为离散型的数据,以便于符号归纳;或是把离散型的转换为连续值型的,以便于神经网络归纳等。 数据变换:目的在于消减数据维数,即从初始特征中找出真正有用的特征,减少特征变量个数。 2.数据挖掘: 首先要确定挖掘的任务或目的是什么,如数据总结、分类、聚类、关联规则发现或序列模式发现等; 然后,决定采用什么样的挖掘算法。为了提高挖掘效率,一要针对数据类型不同的特点,二要针对用户或实际运行系统的要求来选用相关合适的算法来开采。 例如,有的用户可能希望获取描述型的、容易理解的知识,而有的用户或系统的目的要求获取预测准确度,需要尽可能高的预测型知识。完成系统分析和这些准备工作后,就可实施数据挖掘操作了。 3.结果解释和评价: 数据挖掘出来的模式,经过用户或机器的评价,可能存在冗余或无关的模式,这时就需要将其剔除;也有可能得到的模式不满足用户要求,这时则需要系统退回到发现过程之前,重新选择数据,采用新的数据变换方法,设定新的参数值,甚至换一种开采算法。 ⑴ 特定领域的数据开采工具: 针对某特定领域问题提供解决方案。在设计算法时充分考虑到数据、需求的特殊性,并优化。对任何领域,都可以开发特定的数据开采工具。 例如,IBM公司的AdvancedScout系统针对NBA的数据,帮助教练优化战术组合; 芬兰赫尔辛基大学计算机科学系开发的TASA,帮助预测网络通信中的警报。 特定领域的数据开采工具针对性比较强,可以处理特殊的数据,实现特殊的目的,知识发现可靠度高。 * * * * * * * * * * * * * * * * * * * * * * * * * * * 3.数据挖掘系统基本结构 数据挖掘是从大型数据库提取知识,并表示为概念、规则、规律、模式等形式。 典型的数据挖掘系统结构如下图所示。 数据库 数据清理 数据集成 数据仓库 数据过滤 图形用户界面 模式评估 数据挖掘引擎 数据库或数据仓库服务器 4.数据挖掘系统基本过程 可分为数据集成、数据选择、数据预处理等步骤。 数据集成:将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性、处理数据中的遗漏,清洗脏数据等。 数据选择:目的在于辨别出需要分析的数据集合,缩小处理范围,提高DM的质量。 预处理:为了克服目前DM 工具的局限性,主要是通过净化、转换、群聚、分类等手段降低数据的复杂性,并且重新加以组织。 其次,研究开发一种或多种DM工具,如IBM 的IDM 和SGI的Mine Set 等。 最后,用DM 工具来发现未知的知识,并运用知识作为决策支持,达到预定目标。 逻辑 数据库 被选择的数据 预处理后的数据 被转换的数据 被抽取的信息 被同化的知识 选择 预处理 转换 开关 分析和同化 数据挖掘的基本过程 5.数据挖掘的任务 按照数据挖掘技术所能够发现的规则,将常见的数据挖掘任务分为七种类型: ①?特征规则。特征规则是把由所有数据满足的概念特征化。特征规则挖掘能够总结并发现由用户指定的数据集的一般特征,如特定疾病的症状等。 ②?辨识规则。发现一个数据集(目标类)与另一个数据集(对比类)区分开来的特性或性质。例如为把一种疾病与另一种疾病区分开,辨识规则总结区分这些疾病的症状。 ③?互联规则。描述对象集之间的关联关系。 ④?分类规则。把被分类数据映射到一组已知的类。例如,根据汽车的汽油-里程把汽车加以分类。 ⑤?数据聚类。根据对象属性标识对象集的聚类(类或组)。对象按某种聚类准则聚类后,对象组内的相异性最小,组间的相异性最大。例如,根据疾病

文档评论(0)

heroliuguan + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档