大数据分析分享部分.pptVIP

下载本文档

250
0
约1.74万字
约 83页
2017-03-15 发布于上海
举报
版权申诉

大数据分析分享部分.ppt

1、本文档共83页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

* 流数据抽样一般抽样问题：若存储空间预先有设置，则随着样本的增加而超过预先设置时，可采用去除某些关键字段值的样本元组来释放存储空间（例如，开始记录100人的搜索记录，随着样本数的增加，逐渐减为99人、98人、......，并去除原来存储的被减去的人的元组）。具体办法如下，选择一个哈希函数h，可将关键字段值K映射到一个很大的取值范围（例如，一开始可以容纳很多人的搜索），桶的总数B很大，并维护一个阈值t，其初始值设为B-1。任何时候，样本都有K满足h(K)≤t的元组构成。如果存储空间不足，则可将阈值降低为t-1，并将那些满足h(K)=t的元组删除。 * 流过滤垃圾邮件过滤设有m个非垃圾邮件地址构成的集合S 邮件数据流通过垃圾邮件过滤器时进行过滤操作，过滤的办法是检查该邮件地址是否在S集合中由于m数量一般很大，且每个邮件地址都有20左右的字节，直接将S存放在内存中是不合适的；此外，只要检查该邮件地址是否在S中，并不需要关心到底是哪个邮件地址。因此布隆过滤器是一种有效的垃圾邮件过滤技术。 * 流过滤布隆过滤器将内存当做位数组使用，N字节内存对应8N个位，记为n。(设1个字节占8位)，每个位的初始值为0。 m个邮件地址（键值）组成集合S。 k个哈希函数组成哈希函数族h1,h2,...,hk。每个哈希函数可以将一个邮件地址映射到某个位上。布隆过滤器的目的是让邮件地址在S中的流数据通过，不在S中的流数据大部分被阻挡。 * 流过滤布隆过滤器工作流程首先用k个哈希函数组成的哈希函数族h1,h2,...,hk对S中的每个键值做k次映射，只要某个位被映射到1次，位值则改记为1。当键值为K的流元素到达时，检查所有的h1(K),...,hk(K)是否全为1，如果是，则允许通过，否则阻挡。 * 流过滤布隆过滤器性能分析给定键值不能哈希到给定位的概率：(n-1)/n 每个键值哈希k次，所有键值都哈希不到给定位的概率： ((n-1)/n)km=((1-1/n)n)km/n=e-km/n 伪正例的概率=某个键值经过k次映射均为1的概率=一个位为1的概率的k次方=(1-e-km/n)k 设m=1G, N=1G, n=8G，m/n=1/8 k=1，给定位未被哈希到的概率=e-1/8，而至少被哈希到1次的概率为1-e-1/8=0.1175，略小于1/8。0.1175也是伪正例概率。 k=2，伪正例概率=(1-e-1/4)2≈0.0493。 * 独立元素数的估计任务：估计流中所出现的不同元素的数目。 FM算法(Flajolet-Martin)：将流中的每个元素（总数为m）哈希到一个足够长的位串（位串长度大到能容纳哈希函数的可能结果数目），使用多个不同的哈希函数。这样，流中看到的不同元素越多，则看到不同的哈希值也越多，尾数连续为0的哈希值也越多（尾数连续0的数目称为尾长）。设截止目前看到的最大尾长为R，则独立元素估计为2R。 * 独立元素数的估计性能分析给定元素的哈希值尾长为r的概率为2-r，流中的任何元素的哈希值都没有尾长达到r的概率为(1-2-r)m=exp(-m2-r) 如果m远大于2r，则发现一个尾部长度至少为r的概率接近1；如果m远小于2r，则发现一个尾部长度至少为r的概率接近0。因此，m的估计值取2R是合理的。内存性能：仅保存每个哈希函数产生的最大尾长。问题分析及对策当R出现异常时（哪怕仅异常1位），估计误差就达1倍。将哈希函数分成若干组，每组的哈希函数的数目约为klog2m, k是一个小整数。按组计算估计值的平均值，再取各组平均值的中位数。 * 矩估计矩定义给定的数据流由选自某个全集上的元素构成，假定该全集的所有元素都排好序，则可用整数i标记第i个元素，若元素i出现在流中的次数为mi（≥0），则流的k阶矩(kth-order moment)是所有i上的(mi)k之和。 0阶矩：出现在数据流中的独立元素的个数。 1阶矩：当前数据流中的元素个数=整个流的长度。 2阶矩（奇异数）：当前数据流中，每个独立元素i出现次数mi的平方和，它可度量流中元素分布的非均匀性，奇异数越大，均匀性越差。 * 矩估计二阶矩估计的AMS算法(Alon-Matias-Szegedy) 对于变量X，给定流中的元素记为X.element，变量X的值记为X.value。我们可以在长度为n的流中均匀、随机地选择1~n间的一个位置，将X.element置为该位置上的元素，将X.value的初始值置为1，在流读取过程中，每读到一个X.element元素，X.value值加1，直至读完所有元素。基于任意变量X，可导出二阶矩的估计值n(2X.value -1) 可通过选取多个位置，用其平均值得到较精确的结果。如果所有位置均参与估算，其均值严格等于二阶