第二章 知识发现过程与应用结构.ppt

  1. 1、本文档共55页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Chinese Academy of Science 数据挖掘原理与算法 主讲:赵宏庆 第二章 知识发现过程与应用结构 2.1 知识发现的基本过程 2.2 数据库中的知识发现处理过程模型 2.3 知识发现软件或工具的发展 2.4 知识发现项目的过程化管理 2.5 数据挖掘语言介绍 如何学习本章内容 在上一章我们指出,数据挖掘有广义和狭义两种理解。为了避免混淆,本章使用知识发现而把数据挖掘限制在上面所描述的狭义概念上。 如何学习本章内容 虽然不同企业会有不同的业务逻辑,解决问题的具体方法有所差异,但是它们进行知识发现的目的和基本思路是一致的。 本章首先对知识发现的基本过程进行分析,旨在使读者从总体上掌握知识发现的基本步骤和技术。 然后对目前比较流行的KDD过程处理模型进行剖析,了解KDD系统的应用体系结构。 通过对KDD系统的基本技术环境和主要部件功能分析,对KDD系统的体系结构有一个更深入的了解。 在此基础上对KDD软件和工具进行归纳、举例和分析,帮助读者在实际应用中学会选择和使用相应的软件和工具。 如何学习本章内容 本章也对KDD系统项目的过程化管理、交互式数据挖掘过程以及通用的KDD原型系统进行讨论,从软件项目管理角度来更好地理解KDD过程。 最后对数据挖掘语言的类型和特点进行介绍。 2.1 知识发现是一个系统化的工作 从源数据中发现有用知识是一个系统化的工作。 首先必须对可以利用的源数据进行分析,确定合适的挖掘目标。然后才能着手系统的设计和开发。 完成从大型源数据中发现有价值知识的过程可以简单地概括为: 首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式; 然后,调用相应的算法生成所需的知识; 最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。 √ 一般地说,KDD是一个多步骤的处理过程,一般分为问题定义、数据抽取、数据预处理、数据挖掘以及模式评估等基本阶段。 问题定义阶段的功能 KDD是为了在大量数据中发现有用的令人感兴趣的信息,因此发现何种知识就成为整个过程中第一个也是最重要的一个阶段。 在问题定义过程中,数据挖掘人员必须和领域专家以及最终用户紧密协作 一方面了解相关领域的有关情况,熟悉背景知识,弄清用户要求,确定挖掘的目标等要求; 另一方面通过对各种学习算法的对比进而确定可用的学习算法。后续的学习算法选择和数据集准备都是在此基础上进行的。 2.1.1 数据抽取与集成 数据抽取与集成是知识发现的关键性工作。早期的数据抽取是依靠手工编程来实现的,现在可以通过高效的抽取工具来实现。 源数据库的选取以及从中抽取数据的原则和具体规则必须依据系统的任务来界定。 主要任务是设计存储新数据的结构和准确定义它与源数据的转换和装载机制,以便正确地从每个数据源中抽取所需的数据。 这些结构和转换信息应该作为元数据(Metadata)被存储起来。 来自不同源的数据可能有模式定义上的差异,也可能存在因数据冗余而无法确定有效数据的情形。此外,还要考虑数据库系统本身可能存在不兼容的情况 2.1.2数据清洗与预处理 在开始一个知识发现项目之前必须清晰地定义挖掘目标。因此,要提高挖掘结果的准确率,数据预处理是不可忽视的一步。 对数据进行预处理,一般需要对源数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行平滑,对丢失的数据进行填补,消除“脏”数据,消除重复记录等。 数据清洗是指去除或修补源数据中的不完整、不一致、含噪音的数据。 2.1.2数据清洗与预处理 常见的不完整数据的修补办法有: 使用一个全局值来填充(如“unknown”、估计的最大数或最小数)。 统计该属性的所有非空值,并用平均值来填充空缺项。 只使用同类对象的属性平均值填充。 利用回归或工具预测最可能的值,并用它来填充。 数据不一致可能是由于源数据库中对同样属性所使用的数据类型、度量单位等不同而导致的。因此需要定义它们的转换规则,并在挖掘前统一成一个形式。 2.1.3数据的选择与整理 没有高质量的数据就不可能有高质量的挖掘结果。 为了得到一个高质量的适合挖掘的数据子集,一方面需要通过数据清洗来消除干扰性数据,另一方面也需要针对挖掘目标进行数据选择。 数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高数据采掘的质量。 数据选择可以使后面的数据挖掘工作聚焦到和挖掘任务相关的数据子集中。不仅提高了挖掘效率,而且也保证了挖掘的准确性。 2.1.3数据的选择与整理 利用数据变换或规约等技术可以将数据整理成适合进一步挖掘的数据格式。 数据变换可以根据需要构造出新的属性以帮助理解分析数据的特点,或者将数据规范化,使之落在一个特定的数据区间中。 数据规约则是在尽可能保证数据完整性的基础上,将数据以

文档评论(0)

独角戏 + 关注
实名认证
内容提供者

本人有良好思想品德,职业道德和专业知识。

1亿VIP精品文档

相关文档