- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
深度学习方法在搜索用户行为模型构建中的应用
刘奕群,王超
清华大学计算机科学与技术系
yiqunliu@
从用户行为信息中挖掘偏好信息已经成为了改进搜索引擎效果的热门研究方向,搜索
引擎基于其记录的海量用户交互行为数据在点击预测、搜索排序和查询推荐等方面都取得
了明显的进步。然而,尽管用户的点击行为数据为搜索结果的相关性评估提供了重要的指导,
但把用户的点击多少直接当做相关性的依据这一做法在真实的搜索环境下却并不成立。
大量已有研究工作表明,用户的点击行为受到多种因素(通常称为影响偏置)的复合影
响,例如:点击位置偏置描述了用户的注意力分布在结果页面中自上而下依次下降的影响;
可信度偏置描述了用户的点击和注意力资源均会向声誉较好的网站倾斜的偏好性影响;而
展现形式偏置描述了不同展现形式的垂直搜索结果会影响用户的注意力分布和浏览顺序等
等。为了描述这些影响,研究人员提出了一系列的点击模型用来描述用户与搜索引擎的真实
交互过程。通过这些点击模型,我们可以推断出用户对每个搜索结果的检验情况以及每个结
果与查询的相关性情况。
一.点击模型概述
大多数的点击模型都基于概率图模型框架进行设计,在这些点击模型中假设了很多组
具有明确物理含义的变量来描述用户的浏览过程。这些变量既包括可观测的用户行为,如点
击行为;也包括不可观测的隐含变量,如用户是否检验了某个搜索结果,该搜索结果是否相
关以及用户在阅读该结果后是否满意等。不同的点击模型有着不同的用户行为和隐含变量
假设。例如:Craswell等人提出的级联模型就假设,用户在未访问到相关结果前会逐一对各
个搜索结果进行检验,而访问到第一个相关结果时则会直接进行点击并终止整个搜索过程。
点击模型构建中,一旦设计好模型架构,我们就可以通过大规模的搜索点击日志数据来学习
推断其中的隐含变量,例如:可以预测某个查询会话中用户对于搜索结果的点击概率,也可
以推知对于某个特定的查询而言各个搜索结果的相关性数值。
当前,尽管点击模型已经在大量搜索引擎实际应用 (如搜索结果排序和广告投放)中取
得了成功,但概率图模型框架仍然限制了相关模型的进一步改进。随着搜索结果的展现和交
互形式变得越来越复杂,用户的交互行为也越来越难以被简单的行为假设(例如级联假设等)
所描述。我们的近期研究发现,在相当比例的查询会话中,用户并不是按照自上而下的顺序
逐一浏览搜索结果的。如果一个概率图模型框架想要把用户的复杂交互行为模式,甚至搜索
结果的内容以及上下文之间的影响都加以描述,那么这个模型就必须引入大量的行为假设
和隐含变量,并定义好各种变量之间的相互影响,这将会使得模型越来越难以推导和计算。
受到这样的限制,大多数的点击模型都只是针对研究人员重点关注的部分浏览行为模式进
行建模,而选择忽略其他的影响因素以简化模型。
在这些未被考虑的因素中,结果本身的内容信息以及结果之间的上下文关联关系都对
用户的行为产生着至关重要的影响。例如:结果内容中的强调 (红色标记)文字内容和摘要
选取方式都会对用户的点击行为产生影响。而结果与结果之间的内容更是存在着依存与排
斥的关系。考虑到搜索结果的内容之间可能存在有重复和互补的情况,大多数点击模型引入
的独立性假设(即用户对某个结果的点击行为仅取决于这个结果自身的相关性而与其他结
果无关)其实是不合理的。目前,有部分研究人员开始尝试将结果内容信息引入点击模型构
建中,并取得了一定的进展。然而,这部分工作并没有考虑结果之间的上下文影响,而根据
我们的实验,这一信息对点击预测和相关性预测也有很明显的帮助。
二.基于卷积神经网络的点击模型
在本工作中,我们尝试寻找一种比概率图模型框架更有优势的构建描述用户点击行为
的点击模型构建方式。为了将结果内容和上下文影响信息考虑进来,我们尝试基于深度神经
网络框架进行点击模型构建。深度神经网络可以有效的从大量的输入信息(特征) 中有效地自
主学习特征之间的影响和作用。根据最新的研究表明,卷积神经网络(CNN)可以在自然语言
处理等问题上取得很突出的提升效果。深度神经网络最大的优势,是可以将大量的潜在 有
影响的特征进行融合学习,而不需要先验知识将这些特征显示的组合。
另外,在问答系统的相关研究中,一些最新的研究成果表明卷积神经网络可以有效地对
问答系统中的答案的相关性进行建模和预测。与点击模型利用用户的行为信息不同
您可能关注的文档
- 水泥沥青砂浆损伤本构关系研究-长江科学院院报.PDF
- 水流与电流电流.PDF
- 水泥中氧化镁的膨胀机理-南京工业大学学报.PDF
- 水泥窑协同处置技术-中国国际环保展.PDF
- 水溶性O-琥珀酰-N-半乳糖化壳聚糖衍生物的-中国药科大学学报.PDF
- 水源水库沉积物间隙水营养盐分布特征及扩散通量-环境工程学报.PDF
- 水稻光合对不同光强的响应及品种间差异.PDF
- 水稻纹枯病菌细胞壁降解酶组分分析活性测定及其致病作用.PDF
- 水稻醇溶蛋白的多态性研究.PDF
- 水稻田重金属污染的治理方法-中国农学通报.PDF
- 实验室危废随意倾倒查处规范.ppt
- 实验室危废废液处理设施规范.ppt
- 实验室危废处置应急管理规范.ppt
- 初中地理中考总复习精品教学课件课堂讲本 基础梳理篇 主题10 中国的地理差异 第20课时 中国的地理差异.ppt
- 初中地理中考总复习精品教学课件课堂讲本 基础梳理篇 主题10 中国的地理差异 第21课时 北方地区.ppt
- 危险废物处置人员防护培训办法.ppt
- 危险废物处置隐患排查技术指南.ppt
- 2026部编版小学数学二年级下册期末综合学业能力测试试卷(3套含答案解析).docx
- 危险废物处置违法案例分析汇编.ppt
- 2026部编版小学数学一年级下册期末综合学业能力测试试卷3套精选(含答案解析).docx
最近下载
- 市政给水管道(球墨铸铁)施工组织设计114页.pdf VIP
- 《混凝土结构设计原理》22春平时作业1答卷.doc VIP
- 人教PEP版英语五年级上册期末测试卷(含听力书面材料及答案).doc VIP
- (高清版)DB33∕T 926-2014 养老机构服务与管理规范 .pdf VIP
- GB∕T33000-2025《大中型企业安全生产标准化管理体系要求》审核(评审)指导之4领导作用:“4.1安全领导力”要素提问、专业解答和证实(雷泽佳编制2025A0).pdf VIP
- JACK杰克缝纫机A6F-E A6F-EH A6F-E-PK A6F-EH-PK说明书用户手册.pdf
- 学校教学楼电梯安装施工方案.doc VIP
- 江心洲污水二通道承插式管片技术应用研究.pdf VIP
- 沉淀的溶解平衡 .pdf VIP
- 2025学年七年级下学期期末考试生物试卷及答案.docx VIP
原创力文档


文档评论(0)