数据流中概念漂移检测集成分类器设计.docVIP

数据流中概念漂移检测集成分类器设计.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据流中概念漂移检测集成分类器设计

数据流中概念漂移检测集成分类器设计   摘要:提出了一种称为ICEA(incremental classification ensemble algorithm)的数据流挖掘算法。它利用集成分类器综合技术,实现了数据流中概念漂移的增量式检测和挖掘。实验结果表明,ICEA在处理数据流的快速概念漂移上表现出很高的精确度和较好的时间效率。 ??   关键词:数据挖掘; 数据流; 概念漂移   中图分类号:TP311文献标志码:A   文章编号:1001-3695(2008)01-0164-04      数据流挖掘技术是数据挖掘技术中较新的研究分支。所谓数据流是指无限的数据序列持续、快速地到达,并且数据是随着时间不断变化的,且不可预测[1]。例如呼叫记录、网页访问记录以及传感器记录数据均属于数据流的范畴。数据流中的数据随着时间的流逝不断变化,必然会导致数据流算法中概念模型不断更新和维护。因此,这种概念模型的更新和维护也就引起了数据流中的概念漂??问题。例如在正常的数据中出现了一些不可预测的情况,如通货膨胀、气候反常或新产品上市,那么原来挖掘的消费趋向对应的知识就可能改变。这种由于潜在信息的变化而导致目标概念发生根本性变化的技术被称为概念漂移。??   1996年,Widmer等人提出了概念漂移的问题[2],并且之后的学者利用机器学习等研究方法进行了广泛的讨论[3~6]。1997年,Salganicoff等人提出了PECS[8]算法。PECS算法是一种可以根据上下文进行选择的懒惰学习算法。1998年,Harries等人给出了SPLICE[5]算法。SPLICE算法通过上下文聚类技术实现稳定的隐藏信息的识别和局部概念的生成。2001年,Domingos等人对决策树算法进行了改进并且给出了一种适应概念漂移的决策树学习算法VFDT[7]。VFDT是一个典型的基于Hoeffding边界的可以处理数据流的单分类树决策算法。随后,Gama等人对VFDT树作了进一步的改进,扩展了VFDT树的功能[8~10]。   2001年,Street等人提出了一个集成分类器算法SEA,同时,也把它应用到数据流的概念漂移的检测中,并给出SEA concept[11]。2003年,Wang等人对集成分类器中的权值变化和裁减问题进行了讨论,并且提出了根据分类器分类错误率动态改变权值的技术[12]。2004年,Rushing等人提出CBEA[13],集中讨论了一种基于聚类算法的集成分类器裁减问题。他们也强调了该研究领域的应用价值,特别说明在视频数据流和网络数据流中均存在随着时间而变化的数据概念漂移问题。2004年,Chu等人将流行的Boosting技术用于数据流的概念检测中,提出自适应集成分类器综合挖掘方法[14]。??   本文主要解决数据流中概念漂移问题的快速检测和适应等问题。为了解决这个问题,本文利用集成分类器集成技术实现数据蕴藏的概念的更新和维护。随着数据的流动和概念的改变,通过集成分类器的衰减探查与剪裁机制来控制算法的整体分类精度和算法的效率。??      1集成分类器决策算法ICEA??      1.1集成分类器的概念??   集成分类器算法是一个由多个基础分类器通过某种评价机制对数据流中的样本进行综合评价的集成算法。集成分类器算法已经被实验证明在处理存在概念漂移的数据流数据时比简单的分类算法具有更好的适应性和精确性。??   理论上,1988年,Kearns提出了弱学习算法与强学习算法的等价性问题[15],即是否可以将弱学习算法提升成为强学习算法问题。1990年,Schapire证明了这样的假设是成立的[16],并给出了著名的Boosting方法。??   这个理论也同时证明了集成分类器比一般单一分类器所具有的优势,即通过集成分类器进行综合评价的效果要好于单个分类器的分类结果。??   1.2集成分类算法ICEA与已有方法的比较??   VFDT算法是一种典型的基于树状结构的单分类器数据流概念漂移检测算法。VFDT算法是通过Hoeffding边界以增量的形式不断改变树模型所维护的概念,用来适应数据流中概念漂移的现象。但是VFDT算法存在的主要问题在于VFDT采用单一的树模型来维护数据流中概念的变化,在一定情况下,数据流中出现的概念会混杂在同一个树模型中,导致VFDT树模型的概念与数据流中的真实概念发生偏差。??   集成分类算法SEA提出通过在模型中维护多个分类器的方法来解决上述VFDT算法的问题。SEA对每一个到达数据流的样本,它首先聚集成一定大小的数据块;然后将这个数据块作为训练用的数据集来构造分类器;最后通过评估已有的分类器来决定在集成分类器中保存哪些分类器。??   基于批处理方式的SEA在概念漂移的

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档