基于数据窗的在线概念漂移检测-控制科学与工程专业论文.docxVIP

基于数据窗的在线概念漂移检测-控制科学与工程专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
万方数据 万方数据 湘潭大学 学位论文原创性声明 本人郑重声明 : 所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标 注引用的内容外,本论文不包含任 何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体 ,均己在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。 作者签名 :刘 A 日期:别户 f 月 ,t日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权湘潭大学可以将本学位论文的全部或部分内容编 入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存和 汇 编本学位论文。 涉密论文按学校规定处理。 作者签名 :刘戏 导师签名:在左米 日期: /b年 f 月 /%日 日期:川砰年 士 月 18 日 摘 要 随着信息时代的推进,在诸如网络安全、股票分析、气象监控、信用卡欺诈 等领域产生大量无法长期存储的数据, HYPERLINK /view/8740809.htm 这些随时间而无限增长的动态数据称之为 数据流。数据流的分析与处理受存储容量和计算速度等因素的制约,同时数据流 中隐含丰富的、有价值的知识,而且其隐含的知识概念可能会随着环境的变化、 时间的推移而发生动态变化,也即概念漂移。 数据流中的数据具有快速性、实时性、无限性、广域性同时还具有动态变化 特性,加之客观存在的概念漂移,这使得在初始数据集上建立的模型很难适应当 前数据分布特性,从而给流数据的分析和挖掘问题带来了严峻的挑战。其中,如 何准确及时有效地检测流数据中发生的概念漂移并适应漂移变化已成为机器学 习与数据挖掘领域的研究热点和难点问题。为此,本文针对动态流数据中的概念 漂移的检测问题展开了研究,主要工作如下: (1)对近年来国际上关于流数据概念漂移检测方法的研究成果进行了总结, 分析了已有漂移检测算法存在的优缺点。 (2)为了能够准确快速地检测到不同类型的概念漂移和不同概念漂移发生 的具体位置。提出一种基于交叠数据窗的在线概念漂移检测方法,该方法通过计 算相邻交叠数据窗异构欧氏距离,并通过近邻原则判别数据窗中样本不一致程 度,从而实现分布差异性评价和漂移的检测。为了评价该方法的有效性,在具有 不同漂移严重程度和漂移速度的公开数据集上进行了实验,结果表明:交叠数据 窗比非交叠数据窗更能及时准确地检测到漂移的发生。 (3)研究了一种基于数据窗典型相关分析的在线概念漂移检测方法,该方 法把当前到来的数据流序列看成一系列矩阵窗口,然后通过奇异值分解和典型相 关分析技术处理实现分布差异性评价,并通过调整数据窗来适合于不同类型的概 念漂移的检测。在包含不同严重程度和不同漂移速度的人工漂移数据集上的实验 表明,该算法能够很好地检测到渐变式漂移的发生和较严重的突变漂移;在半人 工数据集上进行的实验,验证了经过调整后的数据窗比固定数据窗的检测效果要 好;最后,将算法应用到了真实数据集——意大利电力公司的 Powersupply 数据 集的漂移检测,验证了算法的有效性。 (4)除漂移检测外,概念漂移数据流处理过程中要解决的另一个基本问题 是模型修正,论文探讨了如何利用在线集成学习的个体差异性学习策略对模型进 行修正,并进行实验验证。 关键词:数据流;概念漂移;异构欧氏距离;KNN 近邻算法;典型相关 I Abstract As the information age development, some fields like network security, stock analysis, meteorology monitoring, credit-card fraud etc. would yield a large quantity of data which could not be stored in a long term. These dynamic data, growing endless as time goes by, is called data stream. Analysis and processing data stream is restricted by storage capacity and calculating speed; meanwhile, abundant and valuable knowledge hides inside the data stream; the hidden knowledge may change dynamically as the environment changes and time p

您可能关注的文档

文档评论(0)

1234554321 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档