大数据存储与处理-数据流挖掘.pptx

大数据存储与处理-数据流挖掘

大数据存储与应用 数据流挖掘;内容;预览;流数据模型;流数据模型;流;大数据下的系统限制;模型;问题;应用;抽样;抽样;固定比率抽样;有问题;正确方法:按用户采样;固定Size抽样;新元素进入S的概率p;S中原元素的剔除策略;滑动窗口内计数;示例;应用:统计滑动窗中1的个数;统计滑动窗中1的个数;DGIM方法;DGIM;DGIM需要的存储空间;更新;示例;估计1的个数;Error bound:50%;扩展;应用:窗口内整数的和;小结;过滤 ;Bloom filter;初始化;到底有几个1?;检查;改进:多个hash函数;K的选择;Bloom Filter总结;Distinct元素统计;应用;明显的方法;大数据情况下;Flajolet-Martin方法;直觉证明(Intuition);更形式化的证明;实际应用;矩估计;矩估计;Surprise number(奇异数);AMS方法;分析;推广;应用;对Infinite Stream;衰减窗口;发现流行;DGIM方法;指数衰减窗方法(EDW);实际中,为了减少存储,设一个阈值(如1/2),权重低于该阈值的,就不跟踪了 估计要跟踪多少个视频 任意时刻,所有视频热度的和 来一个视频观看,以前所有视频观看带来的热度乘(1-c),再给对应视频的热度+1 所有视频观看带来的热度的分布,也是一个等比级数,和为 因此,得分超过1/2的电影个数 不会超

文档评论(0)

1亿VIP精品文档

相关文档