面向搜索引擎的互联网用户行为分析新.pdfVIP

  • 7
  • 0
  • 约2万字
  • 约 56页
  • 2019-05-29 发布于湖北
  • 举报

面向搜索引擎的互联网用户行为分析新.pdf

面向搜索引擎的互联网用户行为分析新

面向搜索引擎的互联网用户 面向搜索引擎的互联网用户 行为分析 行为分析 智能技术与系统国家重点实验室 智能技术与系统国家重点实验室 信息检索课题组 信息检索课题组 2009年11月15 日 2009年11月15 日 From A From A 搜索引擎面临的技术挑战 搜索引擎面临的技术挑战 • 用户 搜索引擎 万维网 Result 1 Result 2 Query Result 3 … Click Result 10 Google: I’m feeling lucky 搜索引擎面临的技术挑战 搜索引擎面临的技术挑战 • 用户层面 – 丰富的信息需求只能通过简短的查询来表示 • 查询的平均长度为2-3个词 • 构建复杂查询的尝试(W3QL, WebSQL等) 以失败告终 • 万维网层面 – 数据繁杂,质量参差不齐 • 2002年,Web 上所存储的数据超过500,000 TB • 2008年,Google 索引量声称超过1 trillion 网页 • 冗余、过期、低质量乃至垃圾数据层出不穷 如何解决? 如何解决? • 借助用户的力量 – 用户查询:如何查询高考分? – 传统思路:查询分析与分类,关键词提取… – 依靠用户的思路:百度知道 如何解决? 如何解决? • 借助用户的力量 如何解决? 如何解决? • 借助用户的力量 – 搜索质量与经济利益密切相关 – 群众的话不能不信,也不能全信 – 需要借助标注人员的过滤,反馈速度慢 如何更好的借助用户的力量? 如何更好的借助用户的力量? • 解决思路:用户群体的行为分析 – 隐式反馈与显式反馈(implicit / explicit feedback) • 显式反馈 – 用户主动反馈 – 直接,对用户行为产生影响,少量 • 隐式反馈 – 用户被动反馈 – 间接,不对用户行为产生影响,大量 如何更好的借助用户的力量? 如何更好的借助用户的力量? • 用户的点击都是有目的的 • 从统计角度分析,用户点击背后所隐藏的 是用户的语义信息 如何更好的借助用户的力量? 如何更好的借助用户的力量? • 用户行为的载体:日志数据 – 查询与点击日志 • 用户提交的查询 • 用户点击了哪些结果 • 其他辅助信息

文档评论(0)

1亿VIP精品文档

相关文档