- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
深度学习方法在搜索用户行为模型构建中的应用
刘奕群,王超
清华大学计算机科学与技术系
yiqunliu@
从用户行为信息中挖掘偏好信息已经成为了改进搜索引擎效果的热门研究方向,搜索
引擎基于其记录的海量用户交互行为数据在点击预测、搜索排序和查询推荐等方面都取得
了明显的进步。然而,尽管用户的点击行为数据为搜索结果的相关性评估提供了重要的指导,
但把用户的点击多少直接当做相关性的依据这一做法在真实的搜索环境下却并不成立。
大量已有研究工作表明,用户的点击行为受到多种因素(通常称为影响偏置)的复合影
响,例如:点击位置偏置描述了用户的注意力分布在结果页面中自上而下依次下降的影响;
可信度偏置描述了用户的点击和注意力资源均会向声誉较好的网站倾斜的偏好性影响;而
展现形式偏置描述了不同展现形式的垂直搜索结果会影响用户的注意力分布和浏览顺序等
等。为了描述这些影响,研究人员提出了一系列的点击模型用来描述用户与搜索引擎的真实
交互过程。通过这些点击模型,我们可以推断出用户对每个搜索结果的检验情况以及每个结
果与查询的相关性情况。
一.点击模型概述
大多数的点击模型都基于概率图模型框架进行设计,在这些点击模型中假设了很多组
具有明确物理含义的变量来描述用户的浏览过程。这些变量既包括可观测的用户行为,如点
击行为;也包括不可观测的隐含变量,如用户是否检验了某个搜索结果,该搜索结果是否相
关以及用户在阅读该结果后是否满意等。不同的点击模型有着不同的用户行为和隐含变量
假设。例如:Craswell等人提出的级联模型就假设,用户在未访问到相关结果前会逐一对各
个搜索结果进行检验,而访问到第一个相关结果时则会直接进行点击并终止整个搜索过程。
点击模型构建中,一旦设计好模型架构,我们就可以通过大规模的搜索点击日志数据来学习
推断其中的隐含变量,例如:可以预测某个查询会话中用户对于搜索结果的点击概率,也可
以推知对于某个特定的查询而言各个搜索结果的相关性数值。
当前,尽管点击模型已经在大量搜索引擎实际应用 (如搜索结果排序和广告投放)中取
得了成功,但概率图模型框架仍然限制了相关模型的进一步改进。随着搜索结果的展现和交
互形式变得越来越复杂,用户的交互行为也越来越难以被简单的行为假设(例如级联假设等)
所描述。我们的近期研究发现,在相当比例的查询会话中,用户并不是按照自上而下的顺序
逐一浏览搜索结果的。如果一个概率图模型框架想要把用户的复杂交互行为模式,甚至搜索
结果的内容以及上下文之间的影响都加以描述,那么这个模型就必须引入大量的行为假设
和隐含变量,并定义好各种变量之间的相互影响,这将会使得模型越来越难以推导和计算。
受到这样的限制,大多数的点击模型都只是针对研究人员重点关注的部分浏览行为模式进
行建模,而选择忽略其他的影响因素以简化模型。
在这些未被考虑的因素中,结果本身的内容信息以及结果之间的上下文关联关系都对
用户的行为产生着至关重要的影响。例如:结果内容中的强调 (红色标记)文字内容和摘要
选取方式都会对用户的点击行为产生影响。而结果与结果之间的内容更是存在着依存与排
斥的关系。考虑到搜索结果的内容之间可能存在有重复和互补的情况,大多数点击模型引入
的独立性假设(即用户对某个结果的点击行为仅取决于这个结果自身的相关性而与其他结
果无关)其实是不合理的。目前,有部分研究人员开始尝试将结果内容信息引入点击模型构
建中,并取得了一定的进展。然而,这部分工作并没有考虑结果之间的上下文影响,而根据
我们的实验,这一信息对点击预测和相关性预测也有很明显的帮助。
二.基于卷积神经网络的点击模型
在本工作中,我们尝试寻找一种比概率图模型框架更有优势的构建描述用户点击行为
的点击模型构建方式。为了将结果内容和上下文影响信息考虑进来,我们尝试基于深度神经
网络框架进行点击模型构建。深度神经网络可以有效的从大量的输入信息(特征) 中有效地自
主学习特征之间的影响和作用。根据最新的研究表明,卷积神经网络(CNN)可以在自然语言
处理等问题上取得很突出的提升效果。深度神经网络最大的优势,是可以将大量的潜在 有
影响的特征进行融合学习,而不需要先验知识将这些特征显示的组合。
另外,在问答系统的相关研究中,一些最新的研究成果表明卷积神经网络可以有效地对
问答系统中的答案的相关性进行建模和预测。与点击模型利用用户的行为信息不同
您可能关注的文档
最近下载
- 运动伤病的预防与紧急处理+课件+ 2025-2026学年人教版(2024)初中体育与健康八年级全一册.pptx VIP
- 养虾业养殖技术手册.doc VIP
- 标准图集-04D701-3电缆桥架安装.pdf VIP
- 医院面试康复治疗师面试问题含考察点和参考答案.docx VIP
- 讯飞翻译机中英版使用说明书.pdf VIP
- 催化化学-催化作用的化学基础.pptx VIP
- 基层常见病的诊疗与管理题库答案-2025年华医网继续教育.docx VIP
- 兴趣伴成长+课件+ 2025-2026学年人教版(2024)初中体育与健康八年级全一册.pptx VIP
- 儿童,颜色,填涂画.docx VIP
- 文件筐测试答案.docx VIP
文档评论(0)