- 1、本文档共25页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
流式数据挖掘发展与统计研究 .ppt
流式数据挖掘的发展与统计学研究 朱建平 来升强 厦门大学经济学院计划统计系 The Development and The Statistical Research for Streaming Data Mining Zhu Jian-ping Lai Sheng-qiang Department of Planning and Statistics of the School of Economics of Xiamen University xmjpzhu@ 报告目的 本报告对近年来在国内外学界涌现出的流式数据挖掘的研究成果进行较为全面的介绍,分析了流式数据挖掘的研究现状。提出了统计学在流式数据挖掘研究中的发展趋势,以便更好让大 家深入的认识统计学和数据挖掘的结合, 拓展统计学方法的研究思路。 报告的基本内容 一、流式数据挖掘的研究现状 二、流式数据挖掘中统计学的研究趋势 三、统计学研究的体会 一、流式数据挖掘的研究现状 经过近二十年的发展,数据挖掘方法在众多领域被广泛研究和应用。在学术界,美国计算机学会(ACM)有多个主题为数据挖掘的学术会议,例如SIGMOD(Conference on Management of Data)、DMKD(Data Mining and Knowledge Discovery)和VLDB(Very?Large?Data?Bases)等。以数据挖掘为主题的国际期刊也有不少,其中影响较大的有《超大数据库期刊(VLDB Journal)》、《数据挖掘与知识发现(Data Mining and Knowledge Discovery)》和《美国计算机学会数据库系统学报(ACM Transactions On Database Systems)》,并且一些系统科学、统计学、人工智能、临床医学等领域的重要刊物上也屡见数据挖掘理论及方法的应用研究。 近年来,国内外学界涌现了一大批针对流式数据挖掘的研究成果。所谓流式数据,指按照时间顺序无限增加的数据观测值向量所组成的数据序列,也可以将流式数据看成历史数据和不断增加的更新数据的并集。从定义易知,流式数据挖掘是数据挖掘的更一般形式。 流式数据主要出现在大量实时监测和控制系统中,例如航天水利设备传感器组监控、气温水流等环境气象监测、以及金融市场实时交易监控等实时系统都会产生规模巨大的历史数据,并能在数分钟内就生成一个相当规模的更新数据集。 数据对象的复杂化和动态化向研究者提出了新的挑战。从总体上,国外在该领域的研究较为广泛,我们从数据挖掘的技术和挖掘的知识看,在流式数据挖掘的研究方面取得了一些成效。 1. 流式数据聚类。 2. 流式数据分类。 3. 时变模式识别。 4. 流式数据压缩。 5. 规则发现。 1. 流式数据聚类 长期以来,数据挖掘的聚类分析都处在静态数据的层次上。这一方面是维数灾问题(coarse of dimensionality)没有得到很好的解决,常用的特征变换(feature transformation)和子空间选择(subspace selection)方法实际上都是有损失的降维技术,许多研究都试图提出新的降维方法,以尽可能地减少信息损失。另一方面是数据规模问题。由于计算机性能限制,大量的研究都在改进算法和降低复杂度。 然而,流式数据是历史数据与不断增加的更新数据的并集,因此除了以上提到的两个问题,流式数据聚类分析还应考虑:(1)如何反映流式数据在时间上的动态特征。现在基本是采用对时间窗内不同时刻观测值加权的办法(有些文献称之为“倾斜时间窗(tilted time window)”),例如Aggarwal C., et al.(2005)采用一个关于数据观测值生存时间的指数衰减函数对历史数据进行加权;(2)如何处理更新数据对已有聚类的影响。显然只有在(1)的基础上,这个问题才有可能解决,目前这方面研究几乎空白。 2. 流式数据分类 3. 时变模式识别 这一问题源于如何在包含空间位置信息的流式数据中进行多目标路径相似性识别。从早期时空数据库中的规则挖掘到现在的动态时间翘曲(Dynamic Time Warping)研究,时变模式
文档评论(0)