- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
北 京 邮 电 大 学
本科毕业设计(论文)开题报告
学院
计算机学院
专业
计算机科学与技术
班级
-
学生姓名
Xxx
学号
-
班内序号
-
指导教师姓名
Xxx
所在单位
计算机学院
职称
讲师
设计(论文)题目
移动互联网环境下手机病毒挖掘引擎的开发与测试-关联规则算法
选题背景意义:
本次毕设主要处理的数据类型为数据流。数据流(data stream)最初是通信领域使用的概念,代表传输中所使用的信息的数字编码信号序列。然而,我们所提到的数据流概念与此不同。这个概念最初在1998年由Henzinger在文献87中提出,他将数据流定义为“只能以事先规定好的顺序被读取一次的数据的一个序列”。
如今的社会是信息化时代,随着信息的大量产生,需要处理的数据正以每天数以百万计甚至没有上限的速度增长,并且这些数据与传统的静态数据不同而是一种动态的数据流。近年来,由于计算机能力的飞速发展,对实时进行数据挖掘的需求变得越来越迫切,即在数据流到达的时候就对其进行挖掘,数据流挖掘因此逐渐成为数据挖掘领域中的一个新的热门方向,因而关于数据流相关应用的研究受到学界的关注。在这些应用中都会生成大量的流数据,例如金融行业、网络监控、安全领域、电信通讯领域数据、SNS 网络应用领域、制造业、Sensor 网络领域以及其它的相关领域。这些连续到达的多维、高速、时变、不可预测、无边界的数据流成为学界新的研究课题。这些快速生成、连续到达的数据流信息对于计算系统的存储、计算提出了新的挑战。选择该课题,符合社会当下的热点技术研究,对较多的行业都具有实用价值。
关联规则在数据流挖掘上主要应用在于频繁模式挖掘,数据流上的频繁模式能够为数据流应用提供重要的决策依据。但是, 由于数据流的流动性与连续性,数据流上频繁模式信息随着流数据的连续产生而不断发生变化。在大多数数据流的应用中, 用户往往更加关注数据流上最近事务数据所包含的模式信息。近年来, 数据流上频繁模式挖掘工作受到广泛的关注, 并取得了很多成果。然而大部分的频繁模式挖掘算法都存在着明显的缺陷,例如空间复杂度大,灵活性差等。
本次毕设需要提出一种能够高效挖掘数据流任意大小滑动时间窗口内频繁模式的方法。该方法使用结构紧凑的滑动窗口树SW-tree来压缩存储数据流滑动时间窗口内的频繁模式。当数据流流过时, 仅需单遍访问流数据元素, 滑动窗口树可以增量捕获数据流上最新的模式信息。同时, 方法还应当周期性地对滑动窗口树进行剪枝, 删除那些过期的和不频繁的模式所对应的分支, 从而减小滑动窗口树的空间复杂度与维护代价。
研究基本内容:
关联规则算法的研究
使用关联算法进行数据流挖掘。
滑动窗口的研究
由于数据流是流动的,在使用关联算法进行数据挖掘时,需要建立时间窗,对滑动时间窗口的数据进行研究。
对于GTk+框架的研究
利用Gtk+工具包完成GUI的开发工作。
需解决的主要问题:
本次毕设主要问题在于数据流挖掘的算法实现。主要可以分为下列几个子问题。
1)提出一种存储结构来适应挖掘数据流滑动时间窗口内的频繁模式;
2)实时地维护滑动时间窗口内事务数据集最新的模式信息;
3)保证在挖掘过程中不丢失数据流上的模式信息;
4)及时响应用户请求,并在有效时间内反馈查询结果。
研究方法及措施:
为了解决问题,提出了下列几种措施。
1)滑动窗口树SW-tree
为了适应挖掘数据流滑动时间窗口内的频繁模式, 设计一种被称为滑动窗口树的前缀模式树来增量维护数据流上的模式信息。SW-tree是一种基于频繁模式树FP-tree的改进模式树。
2)增量更新
随着时间的推移, 新的事务数据进入滑动时间窗口SW而历史的事务数据从SW中移出, 因此, SW内事务数据的集合在不断地发生变化。为了实时地维护SW内事务数据集最新的模式信息, 当新的事务数据到达时, 必须及时对其进行处理, 并将其模式信息增量更新至滑动窗口树SW-tree上。此外,在滑动窗口树上, 由于各分支上节点排列的顺序与各数据项在数据流中出现的先后顺序及出现的频率无关。因此,流数据的处理及滑动窗口树的增量更新不依赖数据流中未来达到的流数据。当新的事物数据到达时,将事物所包含的模式信息增量跟新至滑动窗口树SW-tree上。
3)快速剪枝
为了不丢失数据流上的模式信息, 在滑动窗口树增量更新时,事务数据所包含的不频繁模式也同时保存到滑动窗口树上。随着时间的推移, 不频繁模式的数量将迅速增加, 而导致滑动窗口树的空间复杂度及维护代价大为增加。为了减少维护滑动窗白树的时间与空间代价, 必须定期地对滑动窗口树进行剪枝,删除树上那些过期的和不频繁模式所对应的分枝。
4)模式输出
根据数据流应用的特点, 当用户提交数据流滑动时间窗口内频繁模式查询请求后,系统要求能够及时地响应用户
文档评论(0)