用户行为特征及缓存的应用.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第七章

用户行为特征及缓存的应用张宇计算机科学与技术学院

研究用户行为特征的目的搜索引擎用户输入的查询词语和查询过程中所点击到的网页URL均表现出明显的局部性可以用来指导查询缓存的设计

2019用户查询与点击日志012020用户行为特征的统计分析022021查询缓存的使用032022用户行为与Web信息的分布特征04主要内容

01用户查询与点击日志03查询缓存的使用02用户行为特征的统计分析04用户行为与Web信息的分布特征主要内容

126543搜索引擎所维护的信息种类搜集到的Web网页相关的信息网页经过分析处理后得到的信息:摘要、关键词、元信息、URL超链信息这些都是提供给用户看的信息在服务过程中收集到的用户行为信息用户的查询项、查询时间、用户的IP地址、用户点击的感兴趣的页面的URL123456用户查询与点击日志

用户查询与点击日志天网日志文件用户查询日志用户提交查询请求时记录的用户提交的关键词、提交时间、用户的IP、页号、是否在缓存中命中用户点击日志在用户浏览查询结果时点击页面时记录的用户点击页面的时间、点击页面的URL、用户IP、点击页面的序号、该点击对应的查询词等FriMar2100:00:022003//提交时间218.24.100.77//用户IPDatabase//是否在缓存中命中老歌//查询词3//页号FriMar2100:00:022003//点击时间202.206.102.169//用户IP虫儿飞//查询词//点击的URL16//点击页面的排序

01统计分析了如下用户行为的分布特征02用户查询词的分布情况03雷同查询词的衰减统计04相邻N项查询项的偏差分析05用户点击URL的分布情况06用户在输出结果中的翻页情况用户查询与点击日志

2019用户查询与点击日志012020用户行为特征的统计分析022021查询缓存的使用032022用户行为与Web信息的分布特征04主要内容

1用户查询词的分布情况2天网1999年4月15日到1999年6月10日期间的日志记录为分析对象5按查询次数降序排列,得到4其中,n个查询中共有m个不同的查询词3假设用户的查询词序列为用户行为特征的统计分析

用户行为特征的统计分析与S2对应的查询次数序列S2中前某个百分比的查询词对应的查询次数占总查询次数的比率Y

用户行为特征的统计分析X轴:用户查询词占查询词总数的百分比Y轴:查询词的查询次数占总的查询次数的百分比查询词的分布情况

用户行为特征的统计分析拟合函数拟合函数:y=(-0.04103+1.01689x)0.1346原函数查询词分布函数及其拟合函数

雷同查询词的衰减统计将序列S1进行分组(用户的查询词序列)每1000个一组T1表示A1中不同的查询项组成的集合,然后计算后面各组的查询项中有多少个查询项出现在T1中用户行为特征的统计分析

用户行为特征的统计分析雷同查询词的衰减

相邻N项查询的偏差分析将用户查询每1000项分为一组对于相邻的两组A和B假设A组中出现的不同的用户查询是其中,前k项是A组和B组共有的,后n项是A中但B中没有的同理,B组中出现的不同的用户查询是用户行为特征的统计分析

A和B中的这些不同的查询项构成一个向量空间假设,为某查询词qi在A中出现的次数,则可得到A组的特征向量同样,可得到B组的特征向量用户行为特征的统计分析12

用户行为特征的统计分析计算上两种特征向量的差平方和相邻1000项查询词的频率的差的平方和

BDFACE用户在输出结果中的翻页情况统计表假设系统能够提供n个显示页面显示页面:{P1,……Pn}统计相同页号的页面点击次数占总点击此书的百分比实际系统中,n=2000,每页包括10个网页信息对应的点击数:{C1,……Cn}用户行为特征的统计分析

用户行为特征的统计分析计算其点击次数占总点击此书的百分比用户在前5页的翻页情况统计页号12345百分比47.3%12.2%7.4%5.0%3.7%

用户行为特征的统计分析用户翻页情况统计

用户点击URL的分布情况1假设用户点击的URL序列为2其中,这n个点击中有m个是不同的,按其被点击次数进行降序排列,得到序列3与S2对应的点击次数序列4用户行为特征的统计分析

用户行为特征的统计分析计算S2中前某个百分比的URL其对应点击次数占总点击次数的比率Y用户点击URL的分布情况横坐标:所选UR

文档评论(0)

135****2083 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档