第2章 节 知识发现过程与应用结构(new) 数据挖掘课件.pptVIP

第2章 节 知识发现过程与应用结构(new) 数据挖掘课件.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第2章 节 知识发现过程与应用结构(new) 数据挖掘课件.ppt

知识发现的基本过程 数据库中的知识发现处理过程模型 知识发现软件或工具的发展 知识发现项目的过程化管理 数据挖掘语言 第二章 知识发现过程与应用结构 从源数据中发现有用知识是一个系统化的工作。首先必须对可以利用的源数据进行分析,确定合适的挖掘目标。然后才能着手系统的设计和开发。 完成从大型源数据中发现有价值知识的过程可以简单地概括为:首先从数据源中抽取感兴趣的数据,并把它组织成适合挖掘的数据组织形式;其次,调用相应的算法生成所需的知识;最后对生成的知识模式进行评估,并把有价值的知识集成到企业的智能系统中。 一般地说,KDD是一个多步骤的处理过程,分为问题定义、数据抽取、数据预处理、数据挖掘 和模式评估等基本阶段。 知识发现的基本过程 问题定义阶段的功能 KDD是为了在大量数据中发现有用的令人感兴趣的信息,因此发现何种知识就成为整个过程中第一个也是最重要的一个阶段。 在问题定义过程中,数据挖掘人员必须和领域专家以及最终用户紧密协作 一方面了解相关领域的有关情况,熟悉背景知识,弄清用户要求,确定挖掘的目标等要求; 另一方面通过对各种学习算法的对比进而确定可用的学习算法。后续的学习算法选择和数据集准备都是在此基础上进行的。 数据抽取与集成 数据抽取与集成是知识发现的关键性工作。早期的数据抽取是依靠手工编程来实现的,现在可以通过高效的抽取工具来实现。即使是使用抽取工具,数据抽取和装载仍然是一件很艰苦的工作。 源数据库的选取以及从中抽取数据的原则和具体规则必须依据系统的任务来界定。主要任务是设计存储新数据的结构和准确定义它与源数据的转换和装载机制,以便正确地从每个数据源中抽取所需的数据。这些结构和转换信息应该作为元数据(Metadata)被存储起来。 来自不同源的数据可能有模式定义上的差异,也可能存在因数据冗余而无法确定有效数据的情形。此外,还要考虑数据库系统本身可能存在不兼容的情况 数据清洗与预处理 在开始一个知识发现项目之前必须清晰地定义挖掘目标。虽然挖掘的最后结果是不可预测的,但是要解决或探索的问题应该是可预见的。盲目性地挖掘是没有任何意义的。如果所集成的数据不正确,数据挖掘算法输出的结果也必然不正确,形成的决策支持是不可靠的。因此,要提高挖掘结果的准确率,数据预处理是不可忽视的一步。 数据的选择与整理 没有高质量的数据就不可能有高质量的挖掘结果,为了得到一个高质量的适合挖掘的数据子集,一方面需要通过数据清洗来消除干扰性数据;另一方面需要针对挖掘目标进行数据选择。 数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高数据采掘的质量。数据选择可以使后面的数据挖掘工作聚焦到和挖掘任务相关的数据子集中。不仅提高了挖掘效率,而且也保证了挖掘的准确性。 利用数据变换或规约等技术可以将数据整理成适合进一步挖掘的数据格式。数据变换可以根据需要构造出新的属性以帮助理解分析数据的特点,或者将数据规范化,使之落在一个特定的数据区间中。数据归约则是在尽可能保证数据完整性的基础上,将数据以其他方式进行表示,以减少数据存储空间,使挖掘过程更有效。常用的归约策略有:数据立方体聚集、维归约、数据压缩、数值压缩和离散化等。 数据挖掘 运用选定的数据挖掘算法,从数据中提取出用户所需要的知识,这些知识可以用一种特定的方式表示。 选择数据挖掘算法有两个考虑因素: 一是不同的数据有不同的特点,因此需要用与之相关的算法来挖掘; 二是用户或实际运行系统的要求,有的用户可能希望获取描述型的(Descriptive)、容易理解的知识(采用规则表示的挖掘方法显然要好于神经网络之类的方法),而有的用户只是希望获取预测准确度尽可能高的预测型(Predictive)知识,并不在意获取的知识是否易于理解。 模式评估 数据挖掘阶段发现出来的模式,经过评估,可能存在冗余或无关的模式,这时需要将其剔除;也有可能模式不满足用户要求,这时则需要整个发现过程回退到前续阶段,如重新选取数据、采用新的数据变换方法、设定新的参数值,甚至换一种算法等等。 KDD由于最终是面向人类用户的,因此可能要对发现的模式进行可视化,或者把结果转换为用户易懂的另一种表示。所以知识评估阶段是KDD一个重要的必不可少的阶段,它不仅担负着将KDD系统发现的知识以用户能了解的方式呈现,而且根据需要进行知识评价,如果和用户的挖掘目标不一致就需要返回前面相应的步骤进行螺旋式处理以最终获得可用的知识。 实施这些需要有良好的技术和人员储备。在整个的知识发现过程中,需要有不同专长的技术人员支持。 业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。 数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为知识发现的各步

文档评论(0)

yuzongxu123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档