- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
维护滑动窗口内的数据流统计
Maintaining Stream Statistics over Sliding Windows
作者:Mayur Datar, Aristides Gionis, Piotr Indyk, Rajeev Motwani
摘要:我们考虑这样一个问题,在一个数据流上维护目前为止最近的N个数据元素的总计以及其他统计变量,我们把这种只考虑最近N个元素的模型称为滑动窗口模型。我们考虑下面这样一个最基本的问题:给定一个位流,我们维护一个计数器,统计目前为止最近N位中值为1的总位数。我们将看到,使用位的存储,我们能在ε的误差内计算出1的位数。对于任意的确定的或者随机化算法,我们也给出了它们的空间复杂度的下确界(matching lower bound)为。我们在此基础上将算法扩展为维护数据流中最后N个正整数的和,并给出了这个更一般问题的复杂度的上确界和下确界。我们也讨论了怎样在滑动窗口模型下利用我们的技术有效计算向量集的Lp(p∈[1,2])范数(Lp norms)。使用我们的算法,可以将很多其它技术引进到滑动窗口模型下,而存储空间需要的额外代价只有,以及ε的精度损失。这些技术包括维护近似直方图,散列表,总计和平均值等统计值。
关键词:统计,数据流,滑动窗口,近似算法
导论
传统的数据库管理系统(DBMS)是在持久稳定的数据集合(persistent data sets)上进行数据管理。然而近来很多应用中出现的数据流的概念,它的数据是无穷无尽的,用数据集合来表示显得不合时宜。数据集合的本质决定了,只有当大部分数据需要频繁的查询但更新相对很少的情况,才适合用数据集合表示。与之形成对比的是,当数据频繁的变动(经常是覆盖原来数据的插入操作)并且没有必要(或者这样做不切实际)对数据进行多次操作时,使用数据流更合适。
对数据流进行管理的诸多挑战中的第一个是,由于数据流的长度是无界的,绝不可能将数据流里所有的数据存储下来。不过对于很多应用程序来说,查询过去的数据还是很重要的。例如,为了侦测假冒信用卡交易,如果我们能够检测出某个帐户近期交易模式和以往交易模式有什么显著不同,这将是非常有用的。为了支持这种查询,我们必须使用有限的存储(主存或者传统的DBMS),和一些特殊的技术来存储数据流的摘要信息。一般来说,需要在摘要信息的大小和对以往数据的查询的结果的精确度之间要取得一个平衡。
我们考虑在到目前为止数据流的最后N个元素上维护一些统计量的问题。我们把这种仅仅考虑数据流到目前为止最后N个元素的模型称为滑动窗口模型。我们首先得解决这样一个简单的计数问题,它是进行更复杂的统计量维护的基础:给定一个位流,在它的最后N个元素中统计值为1的位的个数。我们将证明,使用位的存储,我们能在1+ε因子的误差范围内估计1的个数。对于任意的确定算法或者随机化算法,我们也给出了它们的空间复杂度的下确界为。我们在此基础上将算法扩展为维护数据流中最后N个正整数的和,并给出了这个更一般问题的复杂度的上确界和下确界。
我们也讨论了怎样在滑动窗口模型下利用我们的技术有效计算向量集的Lp(p∈[1,2])范数(norms)。使用我们的算法,可以将很多其它技术引进到滑动窗口模型下,而存储空间需要的额外代价只是在原来的空间复杂度上乘以,以及ε的精度损失。这些技术包括维护近似直方图,散列表,总计和平均值等统计值。我们这里讨论的技术简单而且容易实现,我们希望我们的技术对实现数据流应用程序是个有吸引力的选择。
1动机,模型和相关工作
有些应用从本质上来说会生成数据流而不是数据集合。例如在电信应用中,电话记录通常是不断生成的,在电话记录上典型的操作是一次检查一条记录或者在最近的一个记录“窗口”上进行操作(比如需要更新客户的帐单信息),而在这些操作以后,这些电话记录将被归档而不再被查询。例如,Cortes等人在【2】中记载了ATT的长途电话记录,每天包含了1亿个客户的3亿条记录。另一个例子是网络交通工程(network traffic engineering)的应用,它记录了当前网络的运行状况,包括响应时间和带宽等信息,这些数据都是在线生成的,并用来监测和动态调整网络的运行效率【7】【16】。在这个应用中,要处理过去所有的数据是不实际的也是不可能的,因此只能处理最近的一些数据。
还有其他的传统的应用,也有新近出现的应用,数据流能扮演重要而自然的角色,例如web跟踪和个性化(这里数据流是指web日志条目和用户点击流),医学监测(生命信号,治疗结果以及其它度量),传感器数据库和金融监管等等,这里列出名字的只是很少的一部分。还有一些应用出于处理效率的考虑,将非流的传统数据用数据流的方法来处理。例如,在数据挖掘的应用中,保存在磁盘上的数据量是如此之大,以至不太可能在数据上进行比较多
您可能关注的文档
- [工业地域的形成]同步练习题3.doc
- _氯乙酰氧基大分子引发剂的合成及其引发原子转移自由基聚合.pdf
- “反转法”原理在凸轮机构应用中的疑难解析郑海霞.pdf
- 《线性电路分析》自学指导书.doc
- §8-3相量法的基础.pdf
- ·综述·干细胞移植治疗脑出血的研究进展.pdf
- 1(B)方面的自我意识,即对自己生理条件的自我认识和评价.doc
- 3T高场磁共振设备的常见伪影:原理、表现与对策.pdf
- 5、使用OrCADPspice的几种技巧.doc
- 8中储能行为对金刚石烧结体烧结温度及性能的影响.pdf
- 2025年中国维他命-C乳液数据监测研究报告.docx
- 2025年中国纳米电容直流柜数据监测研究报告.docx
- 2025年中国浴室控制器数据监测研究报告.docx
- 已上传2025年事业单位工勤技能-广西-广西政务服务办事员二级(技师)历年参考题库含答案解析(5卷套.docx
- 2025年中国铜铝复合管数据监测研究报告.docx
- 2025年中国塔斯隆布数据监测研究报告.docx
- 2025年中国矩形通用波纹膨胀节数据监测研究报告.docx
- 2025年中国GPTMap油藏自动绘图软件数据监测研究报告.docx
- 2025年中国三人站综合训练器数据监测研究报告.docx
- 2025年中国PE包装塑料瓶数据监测研究报告.docx
文档评论(0)