浅述分类规则挖掘.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅述分类规则挖掘

浅述分类规则挖掘   摘要分类规则挖掘是数据挖掘领域中最重要的研究领域之一。本文首先分析了分类规则挖掘的产生背景及意义,其次简述了分类规则挖掘的算法和应用领域等方面,然后从分类问题、表示方法和分类挖掘步骤三个方面进行分析,最后指出分类规则挖掘面临的问题及挑战。   关键词数据挖掘分类规则挖掘算法   中图分类号:TP3文献标识码:A      分类规则挖掘是数据挖掘领域中最重要的研究领域之一,同时,也是其它诸如人工智能、模式识别、人工神经网络等学科的重要研究内容,并且有丰富的结果和广泛的应用,因此对分类规则挖掘的研究是很有必要的。      1 数据挖掘概念和技术      20世纪70年代以来,数据库技术得到了迅速发展及广泛应用。在自然科学、工程技术、工商管理、金融证券、政府机构等领域,已经或者正在实施全面的信息化建设,其核心是建立大型复杂的数据库管理系统。随着信息技术的高速发展,数据库的应用规模、范围和深度不断扩大,已经从点(单台机器)、线(局域网)发展到面(广域网),甚至到Internet全球信息系统。   随着计算机技术的飞速发展和企业界不断提出新的需求,数据挖掘技术应运而生。数据挖掘(Data Mining)是从大型数据库的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息。它的目标是高度自动化地分析企业原有的数据,做出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减小风险,做出正确的决策。IBM将数据挖掘的分析方法从功能上划分为以下四种:(1)关联分析(Associations);(2)序列模式分析(Sequential Patterns);(3)分类分析(Classifications);(4)聚类分析(Clusterings)。其中,分类分析(即分类规则挖掘)是数据挖掘的一项重要内容,是知识发现的一个重要方面。   分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则,可被用于规则描述和预测。随着数据库技术的发展,数据库中内容的复杂程度日益增加,大量的信息不断加入到数据库系统中来,研究高效和快速的分类规则挖掘方法已经成为一个十分迫切的课题。      2 分类规则挖掘的算法      分类规则挖掘是数据挖掘中应用领域极其广泛的重要技术之一,至今已经提出多种算法。对于分类规则挖掘通常有以下几种算法:决策树方法、贝叶斯方法、人工神经网络方法、粗糙集方法和关联规则分类法、k一最临近分类法等。这些算法是主要的算法,他们都有其优缺点,都有其适用的数据。还有一些其他的算法,比如遗传算法,后向传播分类、基于概念层次的分类、基于案例的推理、群智能算法如蚁群算法和粒子群算法,以及各种算法的混合算法。   分类算法的优劣直接影响数据挖掘的效率与准确性。分类算法采用五层评价标准:预测准确度(模型正确预测新数据类标号的能力);计算复杂度(依赖于具体的实现细节和硬件环境);健壮性(在有噪声数据或空缺值的情况下模型是否具有正确预测的能力);可伸缩性(对于海量的数据或大型数据库,是否具有有效的构造模型的能力);模型简洁度和可理解性(学习模型是否具有提供理解和观察的层次的能力)。      3 分类规则挖掘的应用领域      分类规则挖掘是数据挖掘领域最重要的研究课题之一,很多数据挖掘的问题都可以转化为分类挖掘问题。目前,分类挖掘算法已经具有广泛的应用,其中应用最集中的领域包括科学研究、金融投资、市场营销、保险、医疗卫生、产品制造业、通信网络管理等行业。      4 数据分类问题、表示方法      4.1 分类问题的描述   数据分类是通过挖掘已有的分类数据,集中同一类数据对象的共同特征,提取分类规则,对整个数据集进行合理分类的过程。分类方法用于预测数据对象的离散类别,分类的目的是能根据已经分类的数据构造出一个分类模型,即分类器。   要构造一个分类器,需要有一个训练数据集作为输入。训练数据集由一组数据库元组构成,每个元组由若干个属性(又称字段或特征)描述。假定训练数据集的每个元组属于一个预定义的类,由一个称为类标号属性的属性确定,则每个元组与一个特定的类标号相对应。该类标号是系统的输入,通常是以往的一些经验数据。      4.2 分类问题的表示方法   分类模型有很多表示方法,比如分类规则、判定树、数学公式、形式文法、形式逻辑表达式、神经网络、框架和模式等等。与其它几种表示方法相比,使用分类规则的好处在于:每条规则能够独立地表示被发现的知识;新规则的加入并不影响已经存在的规则集,而且表示形式简单,

文档评论(0)

151****1926 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档