数据流概念漂移双窗探测方法.pdfVIP

  • 3
  • 0
  • 约2.11万字
  • 约 3页
  • 2017-06-02 发布于河南
  • 举报
数据流概念漂移双窗探测方法

知 识 丛 林 数据流概念漂移双窗探测方法 范 瑞,李星野 (上海理工大学 管理学院,上海 ) 200093 摘 要:数据挖掘(机器学习)领域的研究重点是建立概念漂移数据( )下的模型,其 Concept-drift 中的核心问题就是探测器算法。文章提出了一种基于双窗的探测算法。其优点是给出了该算法的严格 理论基础;有效提高挖掘效率,克服虚漂移的干扰。并且运用人工和实际数据进行实验,效果亦优于其 他算法。 关键词:数据流;概念漂移; 不等式 Hoeffding 中图分类号: 文献标识码: 文章编号: ( ) N941.5 A 1002-6487200817-0151-03 近年来,数据挖掘(人工智能)技术日新月异,迅猛发展, % 据量 , 是 中的数据的观测平均值, 是 的数学期 )W W W W 在各行业中广泛应用。其中,分类是其主要技术,在静态背景 % 望,数据量越大, , 差值就越小。也可以理解为这些量都 下产生了诸如贝叶斯、决策树等效果优良技术。但在显示生 W W 以 为指标或者随着 的变化而改变。 t t 活生产中,数据形式却总是以流的形式存在。数据流由于自 算法 (表格 )已经给出。其原理如下:将 分为任意的 0 1 w 身的特点,使得挖掘算法也有很大的不同,静态数据中,我们 两个子窗,当子窗口均值差异超过一定的限度,就可以认为 总是在假设数据有固定的分布,但是流数据由于其过程性, 两部分的期望值不一致,进而认为两部分的分布情况也不相 可能在不同的时刻的分布或者对应规则发生变化,这就是所 同。时间靠前的子窗口就会被被舍弃,而靠后的则得以保留。 谓的概念漂移问题。 换句话来说,如果, 的数学期望 变化的概率小于 ,则 为了解决上述问题,近年来发展的很多新的算法。有些 W W

文档评论(0)

1亿VIP精品文档

相关文档