数据挖掘文献综述.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘文献综述

湘潭大学 本科生专业文献综述 题 目: 数据挖掘文献综述 姓 名: 林 勇 学 院: 信心工程学院学院 专 业: 自动化 班 级: 一 班 学 号: 2010550113 指导教师: 张 莹 0前言 随着计算机技术的迅猛发展,人类正在步入信息社会。面对今天浩如烟海的信息,如何帮助人们有效地收集和选择所感兴趣的信息,更关键的是如何帮助用户在日益增多的信息中自动发现新的概念并自动分析它们之间的关系,使之能够真正地做到信息处理的自动化,这已成为信息技术领域的热点问题。数据挖掘就是为满足这种要求而产生并迅速发展起来的,可用于开发信息资源的一种新的数据处理技术。 1什么是数据挖掘 数据挖掘(Data Mining),也叫数据开采,数据采掘等,是按照既定的业务目标从海量数据中提取出潜在、有效并能被人理解的模式的高级处理过程。在较浅的层次上,它利用现有数据库管理系统的查询、检索及报表功能,与多维分析、统计分析方法相结合,进行联机分析处理,从而得出可供决策参考的统计分析数据。在深层次上,则从数据库中发现前所未有的、隐含的知识。OLAF的出现早于数据挖掘,它们都是从数据库中抽取有用信息的方法,就决策支持的需要而言两者是相辅相成的。OLAP可以看作一种广义的数据挖掘方法,它旨在简化和支持联机分析,而数据挖掘的目的是便这一过程尽可能自动化。数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet信息库以及新兴的数据仓库(Data Warehouse)等。而挖掘后获得的知识包括关联规则、特征规则、区分规则、分类规则、总结规则、偏差规则、聚类规则、模式分析及趋势分析等。 1.1 数据挖掘的任务 数据挖掘的两个高层目标是预测和描述。前者指用一些变量或数据库的若干已知字段预测其它感兴趣的变量或字段的未知的或未来的值;后者指找到描述数据的可理解模式。根据发现知识的不同,我们可以将数据挖掘任务归纳为以下几类: (1)特征规则。从与学习任务相关的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征.例如可以从某种疾病的症状中提取关于该疾病的特征规则。 (2)区分规则。发现或提取要学习的数据(目标数据)的某些特征或属性,使之与对比数据能够区分开来。例如,通过对某种疾病与其它疾病的症状的比较,可以提取出该疾病相对于其它疾病的区分规则,利用这些规则就可以区分出这种疾病。 (3)分类。分类是用一个函数把各个数据项映射到某个预定义的类,或者说是开采出关于该类数据的描述或模型。数据分类方法有决策树分类方法、统计方法、神经网络方法、粗集方法等。例如,利用当前病历数据可以建立各种疾病的分类规则,对于新来的病人,根据其症状及分类规则就可以知道此人所患病的种类。关于分类问题已经存在大量的研究。 此外,还有基于模式的关联性、聚类、变化和偏差分析等。 1.2 数据挖掘的特点 数据挖掘技术具有以下特点: (1)处理的数据规模十分庞大,达到GB、TB数量级,甚至更大。 (2)查询一般是决策制定者(用户)提出的即时随机查询,往往不能形成精确的查询要求,需要靠系统本身寻找其可能感兴趣的东西。 (3)在一些应用(如商业投资等)中,由于数据变化迅速,因此要求数据挖掘能快速做出相应反应以随时提供决策支持。 (4)数据挖掘中,规则的发现基于统计规律。因此,所发现的规则不必适用于所有数据,而是当达到某一临界值时,即认为有效。因此,利用数据挖掘技术可能会发现大量的规则。 (5)数据挖掘所发现的规则是动态的,它只反映了当前状态的数据库具有的规则,随着不断地向数据库中加入新数据,需要随时对其进行更新。 2 数据挖掘的过程 2.1 确定业务对象 确定业务对象清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。 2.2 数据准备 (1)数据的选择。搜索所有与业务对象有关的内

文档评论(0)

zhanghc + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档