- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
实现了尽力不漏报离群点的目标。
为了能动态地,方便地检测可变滑动窗口内的离群点,我们提出了基于频繁模式
的流数据离群度量——抵触频繁模式离群因子FPCOF,它能更加直观准确地度量数据
的离群程度,并在此基础上给出一种能迅速准确地挖掘数据流上任意大小滑动时间
窗口内离群点的算法ODFP-SW。算法通过构建SWODFP-Tree树,在将流入的数据增量
更新到树上的过程中,同时计算出了数据的 FPCOF 值,并通过树上的候选离群集的
删除和移动,动态更新候选离群集以及候选离群点的 FPCOF 值,能实时动态地反映
数据流中离群信息的变化过程。
在数据流离群点检测的应用中,选择一个合适的离群度的最小检测门限是一件复
杂而困难的事情。人们因而提出了检测数据流上 TOP-K 离群点的需求。针对这种需
求,我们提出了一种数据流上滑动窗口 TOP-K 离群点检测方法。方法根据切尔诺夫
(Chernoff)边界定理和当前第 K 离群点的离群度,估算出 TOP-K 离群点的最低离群
度门限。依据门限将窗口内的数据分为两类:候选 TOP-K 离群点和非离群数据。当
滑动窗口不断向前滑行时,算法将窗口中的过期的和非离群数据清除,这样可以节
约大量存储空间,并能高概率地保证了方法对窗口内TOP-K离群点检测的正确性。
在数据流滑动窗口查询研究领域中,连续查询结果失效的问题成为了一个新研究
热点。查询结果的维护代价直接影响连续查询效率。根据对不同更新模式连续查询
结果的分析,我们提出了一种带分支链表的梯队列来维护滑动窗口连续查询结果。
它利用分支链表结构收集具有相同截止期的数据,采用梯队列的“产卵”机制,能
适应具有各种不同分布的数据维护,且能达到O(1) 的均摊(amortized)时间复杂度。
关键词: 数据流,离群点检测,TOP-K 离群点,连续查询
II
Abstract
In recent years, a new class of data model – data streams emerges with the
development of information technology. The data stream consists of real-time, continuous,
ordered sequence of data in all areas of industry and life of people, such as stock trading,
train ticketing system, sensor networks et al. Data in data streams is large, continuous and
rapid, unpredictable and short-term perishable. These characteristics of data streams cause
that a lot of traditional data mining techniques don’t work well on data streams. Data
mining techniques on data streams are required to have online data mining capacity. They
are needed to handle continuous coming data in the limited space of memory and feedback
results to users in time. In applications of data streams, recent data instances of data
streams usually are more significant than the older ones and may interest some users. To
meet the need, the sliding window model is proposed and the range of the sliding window
(
文档评论(0)