大数据存储与应用数据流挖掘.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据存储与应用数据流挖掘/?page_id=397课程主页:/?page_id=397http/?page_id=397:///?/?page_id=397page_id=397陈一帅mailto:chenyishuai@chenyishuai@内容流数据模型系统,示例抽样过滤数目统计矩估计窗口内计数衰减窗口预览谷歌/淘宝是怎么做下面这些事情的取样比例取样固定size取样频度统计统计item发生的次数白名单过滤统计不同查询的个数评估用户访问的均匀性发现最热item简单的数据统计问题,在大数据场合下,新的方法流数据模型流数据模型系统示例查询问题流数据以流的方式进入搜索引擎的查询请求微博更新特点无穷非平稳流的到达速率取决于用户行为,系统无法控制元素(Element)Tuple大数据下的系统限制流源源不断地来要求实时处理系统限制存储限制,不能存这么多存得多,处理量也大,处理能力限制NSA(美国棱镜门)存几个月流处理有限存储情况下,怎么实时处理?Online learning模型两种查询固定查询:Standing query从不停止例:历史最高温度事先写好 Ad-hoc查询不全存,但还是存一些内容根据这些存储的内容应答问题取样:随机取样(Sampling)过滤(白名单):选取特定属性的元素(Filtering)计数(一定窗口内)有多少个不同的元素?(distinct elements)各元素的Popularity?特征:各阶矩谁最流行?应用Google:查询流发现最流行的查询关键字Yahoo:发现最流行的页面微博:发现最热的话题找人传感器网络电话记录美国,棱镜门网络交换机流量统计,优化路由检测DDoS攻击抽样Sampling抽样两种抽样固定比率抽样1 in 10固定Size抽样总是保持s个元素固定比率抽样应用场合搜索引擎,一个用户的搜索中,重复的有多少?存不了全部,可以存1/10最明显的办法每来一个query生成一个随机整数:0…9如果是0,就存起来1/10的采样然后统计其中的用户重复搜索比例对吗?有问题假设:一个用户所有搜索字符串中,x个查询了一次,d个查询了两次,没有其他查询。重复查询占比:d/(x+d)随机采样10%后,重复查询占比是怎样的?采样后,获得(x+2d)/10个查询,其中x/10个查询是属于x,肯定只出现一次针对d的2d/10个查询d中任一查询,两次都被抽中的概率为1/10×1/10 = 1/100所以,平均有d/100个查询会被抽中两次,占2d/100个查询剩下2d/10 – 2d/100 = 18d/100次查询,也只出现一次。结果不等于d/(x+d)。错误正确方法:按用户采样挑1/10的用户,观察它们的全部查询采样方法Hash(User ID) mod 10,把用户分到十个桶中选第一个桶的用户(hash后结果为0)挑2/10的用户怎么办?选前面两个桶固定Size抽样总是保持s个元素这s个元素,是对过去所有元素的均匀取样即:过去所有元素,进入这s个元素的概率相同直观方案:全存起来,然后从中随机挑s个大数据下,因为存储空间的限制,不可行流方案进来一个新元素时,新元素以概率p进入s原有的s个元素按一定的概率从s中剔除新元素进入S的概率p假设已到达n个元素,它们以s/n的概率被采样,组成s个元素的集合新进来一个元素,一共到达了n+1个元素。这n+1元素,以相同概率进入s这个概率: s/(n+1)所以,这个新元素以s/(n+1)的概率进入sp = s/(n+1)S中原元素的剔除策略新元素不进s的概率新元素进s,但在s中不被剔除的概率原来在s个元素集合中的元素,随机剔除一个不被剔除的概率原先,这n个元素,是以s/n概率进入s的。这一轮过后,任一元素留在s中的概率和新到元素的留下概率s/(n+1)相等结果:所有n+1个元素,以s/(n+1)的概率留下滑动窗口内计数Sliding windows 滑动窗另一种取样方式示例N = 6应用:统计滑动窗中1的个数频率简单方案FIFO,窗口大小:N存起来然后统计但是:N太大(Billion)/流太多(Billion),存不下。怎么办?近似方案统计滑动窗中1的个数如果1均匀分布,容易估计从流开始时刻,统计1/0个数:S/Z估计窗口N内1的个数:如果1的分布不均匀呢?DGIM方法每个流,存储 比特结果误差不超过正确结果的50%可以进一步减少DGIM[Datar , Gionis, Indyk, Motwani] 指数窗口每个窗口中包括 i 个1, i : 2的幂(指数增长)同样i的窗口最多可以有两个窗口不重叠,可以不连续(中间可以隔0) 16 8 8

文档评论(0)

1234554321 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档