大数据存储与处理数据流挖掘.pptxVIP

  • 1
  • 0
  • 约小于1千字
  • 约 64页
  • 2023-10-09 发布于江苏
  • 举报
大数据存储与应用 数据流挖掘;内容;预览;流数据模型;流数据模型;流;大数据下的系统限制;模型;问题;应用;抽样;抽样;固定比率抽样;有问题;正确方法:按用户采样;固定Size抽样;新元素进入S的概率p;S中原元素的剔除策略;滑动窗口内计数;示例;应用:统计滑动窗中1的个数;统计滑动窗中1的个数;DGIM方法;DGIM;DGIM需要的存储空间;更新;示例;估计1的个数;Error bound:50%;扩展;应用:窗口内整数的和;小结;过滤 ;Bloom filter;初始化;到底有几个1?;检查;改进:多个hash函数;K的选择;Bloom Filter总结;Distinct元素统计;应用;明显的方法;大数据情况下;Flajolet-Martin方法;直觉证明(Intuition);更形式化的证明;实际应用;矩估计;矩估计;Surprise number(奇异数);AMS方法;分析;推广;应用;对Infinite Stream;衰减窗口;发现流行;DGIM方法;指数衰减窗方法(EDW);实际中,为了减少存储,设一个阈值(如1/2),权重低于该阈值的,就不跟踪了 估计要跟踪多少个视频 任意时刻,所有视频热度的和 来一个视频观看,以前所有视频观看带来的热度乘(1-c),再给对应视频的热度+1 所有视频观看带来的热度的分布,也是一个等比级数,和为 因此,得分超过1/2的电影个数 不会超过2/c 否则,总分将超过1/c 所以,最多只需要跟踪2/c个视频的热度 省;扩展到一篮子(项集Itemsets);跟踪多少个?;总结

文档评论(0)

1亿VIP精品文档

相关文档