流数据挖掘概述 - 南京大学.pdf

下载文档 降价啦

11
0
约2.52万字
约 11页
2017-08-11 发布于天津
举报
版权申诉
保障服务

流数据挖掘概述 - 南京大学.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

流数据挖掘概述 - 南京大学

流数据挖掘概述 苏成 (南京大学计算机科学与技术系, 南京 210093) A Survey of Stream Data Mining * Cheng Su (Department of Computer Science and Technology, Nanjing University, Nanjing 210093, China) Abstract : With the rapid development of data device and web application, a variety of stream data can be captured in our daily life. Stream data, as many traditional data source, has tremendous and valuable knowledge for people to discover. In the last decade, stream data mining has attracted many researchers and they ha ve made many promising and exciting work. In this paper, we review the state -of-the-art in this area. In particular, we focus on frequent pattern mining, classification and clustering in stream data. We also present the remaining challenges and future work in this growing field. Key words : stream data mining; frequent pattern mining; classification; clustering 摘要: 随着数据设备和网络应用的迅速发展，许多流数据出现在我们日常生活之中。像许多传统的数据源一样，流数据也有着大量和宝贵的知识等待人们去发现。在过去的十几年中，流数据挖掘吸引了很多的研究者，他们也做出了许多充满希望并且令人兴奋的工作。在这篇文章中，我们回顾流数据挖掘中最好的成果。特别地，我们将重点介绍流数据上的频繁模式挖掘，分类和聚类方法。我们也给出了该领域存在的挑战并且指出未来的工作方向。关键词: 流数据挖掘;频繁模式挖掘;分类;聚类中图法分类号: TP301 文献标识码: A  作者简介: 南京大学三年级在读本科生，邮箱:chengsu.nju@ 2 1 Introduction 数据流在我们的生活中无处不在，电话的通信是数据流，网络的通信是数据流，市场的销售状况是数据流，股票交易市场的实时产生的信息是数据流。正如数据挖掘是想从大量数据中挖掘黄金一样的知识，数据流是我们可以挖掘的宝贵资源。随着数据产生设备的发展，越来越多的数据流进入到我们生活中，如果能从这些数据流中尽可能地挖掘出有用的知识，那么对于我们的生活来说将会产生极大的促进作用。 stream data mining，顾名思义，在数据流上进行挖掘。刚看到题目时，我在想，为什么偏偏数据流挖掘能够有资格形成数据挖掘的一个子领域(sub-domain) 呢？数据流不也是数据的一种形式而已么？这里面一个最重要的原因，就是数据流这种数据形式的特殊性。我们想想自己的身边的媒体：网络、电视、电话、股票市场、电子商务，它们的数据都属于流数据。什么是数据流？我们虽然在大脑里不能清楚地定义什么是数据流，但是，我们都能意识到这些设备上的数据有一个共同的特点，那就是无穷性。好像这些数据像一个个开着的水龙头一样，每时每刻都可能会有水流出来，可能会有新数据的产生[1] 。数据流还有什么特点呢？除了好像无穷无尽之外，我们会想到，数据流可能会很多，产生的速度很快，变化的速度也很快。这都是对的[2] 。然而，数据流也具备一个容易被我们忽略的优点：时序性。数据流中先看到的数据肯定比后看到的数据产生的时间早，数据是按时间先后排列好的。一个看似很显然，微不足道的事情，却是后来数据流挖掘领域的一系列算法的基础(Sliding Window[3] 、Lossy Counting[4] 、C