最新第五章-机器学习.ppt

下载文档 降价啦

4
0
约1.02万字
约 75页
2018-11-02 发布于北京
举报
版权申诉
保障服务

最新第五章-机器学习.ppt

1、本文档共75页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

最新第五章-机器学习.ppt

Motivation: Why data mining? 动机，背景发生在数据库上的 ”成长的烦恼” 数据库的发展给自己引出了麻烦。数据爆增 103T 没有数据时千方百计搜集管理数据，上世纪60-70年代层次库，网状库，有了数据扩充能力，搜集管理更多数据，上世纪80-90年代关系库,OODB….. 数据太多了，管不下来。上世纪-90年代 –现在 KDD ,DM….. （作科研找项目也类似?） We are Data Rich but Information Poor 人们给KDD下过很多定义，内涵也各不相同，目前公认的定义是由Fayyad等人提出的。所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的高级处理过程。数据选择：目的是确定与任务相关目标数据，根据用户需要，从原始数据库中抽取一组有用的数据；数据预处理：包括消除噪声、推导计算并补充缺值数据、消除重复记录、完成数据类型转换等。例如，把连续值数据转换为离散型的数据，以便于符号归纳；或是把离散型的转换为连续值型的，以便于神经网络归纳等。数据变换：目的在于消减数据维数，即从初始特征中找出真正有用的特征，减少特征变量个数。 2.数据挖掘：首先要确定挖掘的任务或目的是什么，如数据总结、分类、聚类、关联规则发现或序列模式发现等；然后，决定采用什么样的挖掘算法。为了提高挖掘效率，一要针对数据类型不同的特点，二要针对用户或实际运行系统的要求来选用相关合适的算法来开采。例如，有的用户可能希望获取描述型的、容易理解的知识，而有的用户或系统的目的要求获取预测准确度，需要尽可能高的预测型知识。完成系统分析和这些准备工作后，就可实施数据挖掘操作了。 3.结果解释和评价：数据挖掘出来的模式，经过用户或机器的评价，可能存在冗余或无关的模式，这时就需要将其剔除；也有可能得到的模式不满足用户要求，这时则需要系统退回到发现过程之前，重新选择数据，采用新的数据变换方法，设定新的参数值，甚至换一种开采算法。 ⑴ 特定领域的数据开采工具: 针对某特定领域问题提供解决方案。在设计算法时充分考虑到数据、需求的特殊性，并优化。对任何领域，都可以开发特定的数据开采工具。例如，IBM公司的AdvancedScout系统针对NBA的数据，帮助教练优化战术组合；芬兰赫尔辛基大学计算机科学系开发的TASA，帮助预测网络通信中的警报。特定领域的数据开采工具针对性比较强，可以处理特殊的数据，实现特殊的目的，知识发现可靠度高。 * * * * * * * * * * * * * * * * * * * * * * * * * * * 3.数据挖掘系统基本结构数据挖掘是从大型数据库提取知识，并表示为概念、规则、规律、模式等形式。典型的数据挖掘系统结构如下图所示。数据库数据清理数据集成数据仓库数据过滤图形用户界面模式评估数据挖掘引擎数据库或数据仓库服务器 4.数据挖掘系统基本过程可分为数据集成、数据选择、数据预处理等步骤。数据集成：将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性、处理数据中的遗漏，清洗脏数据等。数据选择：目的在于辨别出需要分析的数据集合,缩小处理范围,提高DM的质量。预处理：为了克服目前DM 工具的局限性,主要是通过净化、转换、群聚、分类等手段降低数据的复杂性,并且重新加以组织。其次，研究开发一种或多种DM工具,如IBM 的IDM 和SGI的Mine Set 等。最后，用DM 工具来发现未知的知识,并运用知识作为决策支持,达到预定目标。逻辑数据库被选择的数据预处理后的数据被转换的数据被抽取的信息被同化的知识选择预处理转换开关分析和同化数据挖掘的基本过程 5.数据挖掘的任务按照数据挖掘技术所能够发现的规则，将常见的数据挖掘任务分为七种类型： ①?特征规则。特征规则是把由所有数据满足的概念特征化。特征规则挖掘能够总结并发现由用户指定的数据集的一般特征，如特定疾病的症状等。 ②?辨识规则。发现一个数据集（目标类）与另一个数据集（对比类）区分开来的特性或性质。例如为把一种疾病与另一种疾病区分开，辨识规则总结区分这些疾病的症状。 ③?互联规则。描述对象集之间的关联关系。 ④?分类规则。把被分类数据映射到一组已知的类。例如，根据汽车的汽油-里程把汽车加以分类。 ⑤?数据聚类。根据对象属性标识对象集的聚类（类或组）。对象按某种聚类准则聚类后，对象组内的相异性最小，组间的相异性最大。例如，根据疾病