中文搜索引擎用户日志分析.pdf

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文搜索引擎用户日志分析

中文搜索引擎用户日志分析 彭波 2004-11-15 提纲 相关背景 实验设置 研究结果 进一步工作 目标与内容 对搜索引擎用户日志进行分析和挖掘, 试图从中发现用户搜索的行为规律,可 用于改善和提高系统性能。 用户日志有两类: 用户查询日志 用户点击日志 相关研究 用户输入查询串平均包含2.2到2.4个英文 单词,多数为两个英文单词; 查询串所包含的英文单词的数量遵从 Poisson 分布; 多数用户并不基于返回结果修正查询词; 重复查询词的数量遵从Pareto分布; 查询串的分布具有明显的局部性,查询 串的出现过程具有自相似性特征; …… 本文研究的问题 中文与英文用户的搜索情况有差异吗? 中文用户输入查询串中包含多少个词项? 有多大比例的查询串中包含中文字符? 用户查看结果页面的时间大概有多长? 用户访问系统的时间有什么特点? 用户访问量与不同查询串、不同用户量 和点击不同url的数量间有什么关系? …… 提纲 相关背景 实验设置 研究结果 进一步工作 实验设计 天网日志 选取2003年11月18日0时至24时的用户查询与 点击日志 ( 北大燕穹提供的数据产品中的编号分别为 YQ- QUERYLOG.0311和YQ-CLICKLOG.0311 ) 天网用户查询日志 查询时间,用户IP,是否Cache命中,查询串和结 果页面编号 天网点击日志 点击时间,用户IP,查询串,点击的URL,点击页 面的编号,点击URL的序号 数据准备 数据清理 总记 不同 不同 非用户行为的查询纪 录数 查询 IP数 录删除同一IP且查 /URL 询次数多于400次以 上的记录 查询 125636 43064 21613 错误操作空查询串 日志 剔除。 基本统计结果 点击 118008 90184 14795 日志 提纲 相关背景 实验设置 研究结果 进一步工作 用户的查询类型与数量 查询类型 数量 百分比 第一次查询 21613 17.2% 修正查询 36719 29.2% 相同查询(包括翻页、 67304 53.6% 重新检索与重新输入) 整体 125636 •少数用户进行了较多的查询,查询次数的差异比较大 。 •平均单个用户输入的不同查询串为2. 7,差异要小的多。 查询串中包含的字符类型 查询串的类型 数量 百分比 纯中文 91958 73.19% 纯英文

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档