- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘要
圈酉
随着信息时代的到来,人们越发察觉到信息的重要性并开始以各种方式搜寻
“黄金”般的信息,其中最为突出也最为准确的是从数据中得到信息。而收集
数据的源头之多、不完整性以及数据特征急剧膨胀,特别是数据流的出现,数
据的存储管理和数据分析出现了前所未有的困境。人们对数据中信息的渴求与
目前落后数据存储管理与挖掘技术的矛盾愈来愈烈,常常出现“望数兴叹”的
场景。这种存在概念漂移、大量噪声数据以及分布不均衡的数据流称为非平稳
流,本文针对非平稳数据流的概念漂移及其分类问题进行分析研究。
首先对数据流挖掘的背景和意义及分类问题所面临的挑战进行阐述:同时详
细地对目前存在的概念漂移应对方法从检测和处理的角度进行总结和概述;不
同侧面地对数据流分类问题从单分类器和集成分类器进行探讨:并归结当前概
念漂移检测和处理及数据流分类方法存在的问题,从而提出本文研究的突破点。
提出了基于鞅的数据流概念漂移检测方法(CDDBM),该方法是在研究了前人
学者们从数据分布角度对概念漂移检测的方法后,在统计学鞅理论的基础上归
纳出了鞅检测概念漂移的原理。该方法认为概念漂移的发生不仅是因为数据簇
中心的变化,其半径变化也会引起概念漂移,从而重定义了数据的相异度量的
方法,并提出双重幂鞅更为全面的统计方法,另外对合理控制概念漂移积累的
阈值进行和检测窗口尺寸,使得该方法在理论上和实验中都取得了良好的效果,
有效控制了误报率和失报率。
提出了基于特征漂移的数据流无监督集成分类方法(ECFD),该方法在不同
数据特征对数据分类具有不同贡献度的基础上给出了特征漂移概念及其与概念
漂移的关系,从而能够更好地对大数据流进行分类并构建更为有效的分类器。
首先利用互信息理论为数据流定制了一种特征选择方法(UFF)并利用前后关键
特征子集得不同判定概念漂移的发生;然后在特征数据集上建立基础分类器并
集成;最后提出了一种修改偏置性的加权方法进行投票分类。在理论分析和实
验结果中都显示了该方法具有良好的精度、运行速度和抗噪性。
关键词:非稳定数据流;概念漂移;特征选择;特征漂移;集成分类器
Abstract
Abstract
Withtheadventofinformation consciousofthe of
era,people significance
tohuntfor kindsof information
informationandstart goldby way.Especially,getting
and data
dataamost method.Thestoreand ofdata the
from is precise management
for andtheinflated
intotroublethekindsof
analysisget sources,theimperfection
the for
forthe contradictionbetween
appearance.The eager
feature,especially
ismoreandmore leadtothe
informationofdataandtheawful clear,and
technology
scene
原创力文档


文档评论(0)