- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据流挖掘方法综述
数据流挖掘方法综述
?
孙雨音
(南京大学 计算机科学与技术系, 南京 210093)
A Survey of Mining Data Streaming
Yuyin Sun*
(Department of Computer Science and Technology, Nanjing University, Nanjing 210093, China)
Abstract: The technology development of network and telecommunication, especially the widely usage of small
wireless sensor,has result that such open environment application as real-time surveillance systems, network
intrusion detection and click streams generate huge volume, time-serial, high-speed, potentially unbounded data
every moment. This makes streaming data mining a hot topic of data mining. There are already some classic
streaming data mining technologies. In this article, we give a brief introduction to streaming data and streaming
data mining algorithms, and we introduce all the algorithms by categories of data mining such as classification,
clustering, and frequent pattern mining. To sum up, we put forward some open problem and further research issues
in this domain.
Key words: Stream data, Streaming data model, Analysis methods, classification, clustering, rule extraction
摘 要: 近年来,随着网络和通信技术的发展,尤其是小型无线传感器设备的广泛应用的发展,诸如实时监
控系统、气象遥感卫星、网络入侵检测等开放环境下的应用不断的产生大量、时序、快速变化和潜在无限的
数据。具有上述特点的数据被称为流数据。越来越多流数据的产生和应用的需求使得对于流数据的挖掘变得
炙手可热。流数据的挖掘随着研究的发展逐渐形成了一些基本的技术。本文简单回顾了流数据的产生和流数
据的特点,介绍了针对流数据特点进行的建模方法和一些流数据的典型应用。并且按照传统数据挖掘的范畴
对流数据挖掘在相应领域的方法进行了介绍和总结。在本文的最后,我们对流数据挖掘的前景做了展望,提
出了流数据挖掘方面的一些开放问题和可能的热点技术。
关键词: 流数据,流数据的建模,基本分析技术,分类,聚类,规则挖掘
? 作者简介:孙雨音,南京大学计算机系,研究生2
1 引言
通常人们接触的数据都是以文件形式存储在磁盘上的数据,例如现在使用最广泛的关系数据库就是对
保存在磁盘中的数据上进行数据库管理操作。但是,随着网络和通信等技术的发展,尤其是小型无线传感器
设备的广泛应用,数据采集变得更加的快捷和自动化。许多新型的应用领域,诸如实时监控系统、气象卫星
遥感、网络通信检测以及电力供应网等,每时每刻都在长生大量的数据。这些数据并不事先存放在存储介质
中,而是想水的流通一样不断的出现,它们具有快速(high speed)、时序(temporally ordered)、海量(massive)
等特征,被称作流数据。一些文献[30] 中对流数据给出了这样的一个定义:“流数据是采用一系列数字编码的
信号,用来表示信号传递过程中的信息”。
从上一段的描述中,可以总结得到流数据的三个特点:
1.流数据到达是高速的。这个特性以及产生流数据的应用的特性要求我们在处理流数据时必须有与数
据流相匹配的快速操作。
2.数据的到达是连续不断的。高速和连续意味着流数据的数据量是潜在无限的。我们无法估计到底有
多少数据、也不确定到底有多少个数据流。使用传统的方式将数据先保存在磁盘上在进行分析就变得非常的
不现实(即使硬盘空间足够大到可以容纳所有的数据,主存也不能做到一
文档评论(0)