数据挖掘中基于多关系决策树算法探究.docVIP

下载本文档

1
0
约 7页
2017-07-28 发布于福建
举报
版权申诉

数据挖掘中基于多关系决策树算法探究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘中基于多关系决策树算法探究

数据挖掘中基于多关系决策树算法探究摘要:本文对多关系数据挖掘的分类算法――多关系决策树算法进行了深入的研究。在此基础上,提出了在用户指导下完成分类任务的背景属性传递技术,并将该技术应用到改进的多关系决策树中。关键词:数据挖掘多关系决策树算法 1.引言传统的数据挖掘中存在很多挖掘技术,但随着数据挖掘技术处理对象范围的扩展,经典的学习方法存在一定的局限性:命题逻辑的描述能力弱,这包括对数据的描述和对发现知识的描述两个方面。知识的获取并不都是单纯地只从原始数据中获得。由于这些背景知识通常采用更具表达力的一阶逻辑来描述,因此,现有的命题数据挖掘技术不便利用有关挖掘任务的背景知识。最后,当前的数据挖掘算法多采用了单表假设,但是在实际应用中,数据以多关系的形式组织。从而引入例如多关系决策树算法。多关系数据挖掘是近年来快速发展的重要的数据挖掘领域,传统的数据挖掘方法只能完成单一关系中的模式发现,多关系数据挖掘能够从复杂结构化数据中发现涉及多个关系的复杂模式。 2.多关系决策树算法 2.1关系数据库关系数据库包括表的集合D={x1,x2,…, xn｝及表之间的联系的集合。这些联系可以看作是一个表中的记录与其他表之间的是怎样相关的约束。表和联系都被看作是关系。每个表至少包含一个关键字属性,即能够唯一确定表的一条记录的属性,把这个属性记为X.K。其他属性或是描述属性或是外部关键字属性。外部关键字属性是另外一个表的主属性。外部关键字属性可以使得表之间建立联系。这种联系分为:一对一联系、一对多联系和多对多联系。下图为数据库实例。 2.2多关系数据挖掘概述多关系数据挖掘的框架是寻找关系数据库中感兴趣的关系模式。多关系模式可以被看作是具有一定特性的数据库中对象的子集。可以在所有模式中基于一定的措施进行选择,通过自顶向下归纳进行查找。对于每一个得到的模式,通过对其本身的优化操作获得它的子模式,这个过程可以看作是对模式覆盖的对象的进一步划分。对于得到的模式递归地应用优化操作。多关系模式语言基于选择图和优化操作定义。 2.3多关系决策树算法MRDTL 多关系决策树算法创建这样一棵决策树,树的节点是多关系模式,也就是选择图。MRDTL算法是BLOCKEEL提出的逻辑决策树归纳算法TILDE的扩展。TILDE用一阶逻辑表示决策树的节点。数据被表示为一阶逻辑的形式,而不是关系数据库中的记录集合的形式。MRDTL扩展了TILDE,可以处理关系数据库中的数据。这两种方法用了相似的优化操作,决策树的归纳也采用了同样的方法。 MRDTL创建决策树的方法与传统的决策树归纳算法ID3很相似,采用逐步优化的过程直至满足某个终止条件。一旦满足了某个终止条件,就会生成一个叶节点,同时有一个类标签同它对应。算法每一步选择的决策节点由适当的量度标准决定。MRDTL算法从单个节点开始,这个节点代表关系数据库中所有被分析对象的集合,这个节点对应于目标表T0。算法的伪码如下: Tree_induction(T:tree,D database,G:selection graph) R:=optional_refinement(G,D) If stopping_criteria(G) T:=leaf(G) else Tleft:=R(G) Tright:=Rcomplement(G) Tree_induction(Tleft,D,G) Tree_induction(Tright,D,G) T:=node(Tleft,Tright,G) 函数optimal-refinement(G,D)考虑所有可能作用于与数据库D相对应的当前模式G的优化,选择最佳的优化。在决策树归纳过程中,可能的候选优化集合由当前的选择图G和数据库D的结构决定。在某一时刻,优化操作集由当前的选择图、数据库的结构以及涉及到的表之间的联系决定。G是选择图的补集。 3.多关系决策树算法的改进多关系数据挖掘方法,是发现关系数据库中涉及多个关系的复杂模式,且直接在多个关系上分析数据而无需向单一数据表的转换,多关系数据挖掘模式表示语言是一阶谓词逻辑语言。多关系数据挖掘任务的复杂性对算法的性能提出了更高的要求。与传统的数据挖掘算法相比,多关系数据挖掘算法的空间变得更复杂,更大,对于单个假设的评价也变得复杂。对于多关系数据学习算法,提高算法效率的主要瓶颈在于假设空间。为了提高多关系数据挖掘算法的效率和可扩展性,减少假设空间是关键。 3.1改进算法流程本改进算法利用堆栈来实现多关系决策树建立决策树过程中的递归操作,递归操作的结束条件是,当判断堆栈为空堆栈时,结束运行,并