机器学习3 数据流的概念漂移研究生特色精品课程 - 智能计算与商空间 .ppt

机器学习3 数据流的概念漂移研究生特色精品课程 - 智能计算与商空间 .ppt

  1. 1、本文档共54页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习3 数据流的概念漂移研究生特色精品课程 - 智能计算与商空间

第五章 数据流的概念获取与增量学习 数据流概述 1.1 数据流定义 1.2 数据流的特征 1.无限性: 数据流中的数据是大量的、潜在无限的,若要将其全部存储,需要的存储空间是无限的; 2.不可预知性: 数据流中到来的数据是随机的,无法利用预测的方法准确预测下一时刻将到来的数据的值; 3.时序性: 由于数据流的无限性,所以对数据元素的访问只能是单次线性的,即数据元素只能按其流入顺序依次读取一次,随机访问是不现实的; 4.不可再现性: 由于数据流的无限性,大部分的数据在处理后被丢弃,除非特意保存,否则不能被再次取出处理,如若需要再次提取数据则需昂贵代价。而传统数据库中的数据可被多次反复读取。 5.高速率: 网络传输数据、股票数据、移动数据等到达的速率非常快, 并经常会 产生突变。 1.3 数据流的性质 数据流记录到来的顺序是无法控制的,且由于硬盘等资源限制,经常无法将所有的记录存储在永久介质中。数据流上的查询也与传统的查询不同,数据流上的查询一旦被提交,将连续在该数据流上进行处理。新的数据到来时,会根据新的数据返回新的结果,近似和可适应性是数据流上的查询的两个非常重要的特点。 1.5 数据流处理模型特点 1.空间有限性: 数据流处理算法主要是基于内存的,由于数据流的无限性,而内存的大小是有限的,不可能将所有的数据流数据的信息保存下来。因此,在许多情况下对数据流进行概化或有选择的舍弃的预处理是必需的,并且在设计处理算法时要注意怎样才能将有限的内存充分利用,使得一次能处理更多的数据。 2.时间有限性: 数据流到达的速率是极快的,储存在内存中的数据都是当前产生的最新的数据,必须在这些数据还没被后来的数据替代前,完成对它进行处理。这就要求在设计算法时要考虑算法的效率,如何在最短的时间内完成对数据的处理,所以,一般情况下要求数据流处理算法是增量式的。 3.单遍处理性(onepass): 数据流的数据量是巨大的,传统的多遍扫描数据的处理方法应用于数据流是不切实际的,因此数据流的处理应该是一个单遍扫描的过程。 4.结果近似性: 受空间和时间的限制,对于数据流要求计算一个精确的结果通常是不可能的,加之数据流处理算法在内存中动态地维护的是数据流概要(synopsis),相对于原始数据的信息丢失必然造成计算的偏差。因而数据流处理的结果通常都是近似的,这也是数据流处理不同于传统数据库分析处理一个特点。 5.事件触发性: 数据流应用中,用户事先定义好处理请求,当应用系统接受到新的数据时,会根据用户预先定义的条件,将相关的处理结果主动发送给用户。用户事先定义好的处理请求对后续到达的数据都是有效的,因而,数据流的处理是一个连续、在线的过程,而不是偶然进行一次,具有事件触发的特性。 1.6 数据流的基本技术 1.抽样(Sampling):抽样是一种使用了很长时间的经典统计技术,指以一定概率决定数据项是否处理的过程,是从数据集中抽取小部分能代表数据集基本特征的样本。经过抽样处理后,数据流挖掘算法就不需要处理全部数据流数据而是数据流数据的抽样。根据各数据项被选中的概率是否相同,可将抽样分为均匀采样和不均匀采样。均匀抽样各数据项选中的概率相同,而不均匀抽样各数据项选中的概率不同。 2.直方图(Histogram):该技术广泛应用于估算查询集合的大小、近似查询及数据挖掘中。直方图为原始数据创建多个连续的 桶(Bucket),每个桶表示一个连续 的区间,并为每个桶维护一个计数进行描述。根据 桶的划分规则不同, 直方图可以分为:等宽直方图、 等深或等高直方图 、指数、压缩等 3.略图(Sketch):构造略图(sketching)是指使用随机映射(Random projections)将数据流投射在一个小的存储空间内作为整个数据流的概要,这个小空间存储的概要数据称为略图,可用于近似回答特定的查询。构造略图技术基于降维,是一个将数据流中的数据向量做一个随机投影的过程。 4.小波(Wavelet):在数据库和数据处理领域,通过对原始数据集进行小波变换,保存部分重要的小波系数,对这些小波系数作为原始数据的压缩表示,能够近似地还原出原始数据集合。 5.分形(Fractal):分形模型适用于以简单的形式描述自然界中复杂的形状,在信号处理等领域己得到广泛的应用。事物具有自相似层次结构,局部和整体在形态、功能、信息、时间、空间等方面具有统计意义上的相似性。自相似性广泛存在于自然界和社会生活中,如人类血压、心电图等生理信号及股票交易价格,分形就是指这种自然界中广泛存在的自相似现象。 6.降载(Loadshedding

文档评论(0)

yanchuh + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档