- 7
- 0
- 约2万字
- 约 56页
- 2019-05-29 发布于湖北
- 举报
面向搜索引擎的互联网用户行为分析新
面向搜索引擎的互联网用户
面向搜索引擎的互联网用户
行为分析
行为分析
智能技术与系统国家重点实验室
智能技术与系统国家重点实验室
信息检索课题组
信息检索课题组
2009年11月15 日
2009年11月15 日
From A
From A
搜索引擎面临的技术挑战
搜索引擎面临的技术挑战
• 用户 搜索引擎 万维网
Result 1
Result 2
Query
Result 3
…
Click
Result 10
Google: I’m feeling
lucky
搜索引擎面临的技术挑战
搜索引擎面临的技术挑战
• 用户层面
– 丰富的信息需求只能通过简短的查询来表示
• 查询的平均长度为2-3个词
• 构建复杂查询的尝试(W3QL, WebSQL等) 以失败告终
• 万维网层面
– 数据繁杂,质量参差不齐
• 2002年,Web 上所存储的数据超过500,000 TB
• 2008年,Google 索引量声称超过1 trillion 网页
• 冗余、过期、低质量乃至垃圾数据层出不穷
如何解决?
如何解决?
• 借助用户的力量
– 用户查询:如何查询高考分?
– 传统思路:查询分析与分类,关键词提取…
– 依靠用户的思路:百度知道
如何解决?
如何解决?
• 借助用户的力量
如何解决?
如何解决?
• 借助用户的力量
– 搜索质量与经济利益密切相关
– 群众的话不能不信,也不能全信
– 需要借助标注人员的过滤,反馈速度慢
如何更好的借助用户的力量?
如何更好的借助用户的力量?
• 解决思路:用户群体的行为分析
– 隐式反馈与显式反馈(implicit / explicit feedback)
• 显式反馈
– 用户主动反馈
– 直接,对用户行为产生影响,少量
• 隐式反馈
– 用户被动反馈
– 间接,不对用户行为产生影响,大量
如何更好的借助用户的力量?
如何更好的借助用户的力量?
• 用户的点击都是有目的的
• 从统计角度分析,用户点击背后所隐藏的
是用户的语义信息
如何更好的借助用户的力量?
如何更好的借助用户的力量?
• 用户行为的载体:日志数据
– 查询与点击日志
• 用户提交的查询
• 用户点击了哪些结果
• 其他辅助信息
原创力文档

文档评论(0)