数据流唯一查询比例抽样分析.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

Supposewouldliketoexamineits

streamofsearchqueriesforthepastmonthto

findoutwhatfractionofthemwereunique–

askedonlyonce.

Buttosavetime,weareonlygoingtosample

1/10thofthestream.

Thefractionofuniquequeriesinthesample

willnotbethefractionforthestreamasa

whole.

▪Infact,wecan’tevenadjustthesample’sfractionto

givethecorrectanswer.

样本的长度是整个数据流长度的10%。

假设一个查询是唯一的。

▪它有10%的机会出现在样本中。

假设一个查询在数据流中恰好出现两次。

▪它有18%的机会在样本中恰好出现一次。

依此类推⋯⋯数据流中唯一查询所占的比例

大得无法预测。

Thelengthofthesampleis10%ofthelengthof

thewholestream.

Supposeaqueryisunique.

▪Ithasa10%chanceofbeinginthesample.

Supposeaqueryoccursexactlytwiceinthe

stream.

▪Ithasan18%chanceofappearingexactlyoncein

thesample.

Andsoon…Thefractionofuniquequeriesin

thestreamisunpredictablylarge.

我们的错误:我们根据数据流中的位置进

行抽样,而不是根据数据流元素的值。

将哈希搜索查询分配到10个桶0、1、...、9。

对哈希到桶0的=所有搜索查询进行采样。

▪一个查询的所有实例要么全部被选中,要么全部不被选中。

▪因此,样本中唯一查询所占的比例与整个数据

流中的比例相同。

Ourmistake:wesampledbasedonthe

positioninthestream,ratherthanthevalue

ofthestreamelement.

Hashsearchqueriesto10buckets0,1,…,9.

Sample=allsearchqueriesthathashto

bucket0.

▪Allornoneoftheinstancesofaqueryareselected.

▪Thereforethefractionofuniquequeriesinthe

sampleisthesameasforthestreamasawhole.

问题:如果总样本量是有限的?

解决方案:哈希到大量桶。

调整样本可接受的桶集合,使样本大

小保持在界限内。

Problem:Whatifthetotalsamplesizeis

limited?

Solution:Hashtoalargenumberofbuckets.

Adjustthesetofbucketsacceptedforthe

sample,soyoursamplesizestayswithin

bounds.

假设我们从10%开始搜索Ͳ查询样本,但希望限

制其大小。

哈希到比如说100个桶,0,1,...,99。

▪将哈希到0到9号桶的元素作为样本。

如

您可能关注的文档

文档评论(0)

152****0921 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档