深度学习方法在搜索用户行为模型构建中应用.PDFVIP

下载本文档

165
0
约4.99千字
约 5页
2017-07-10 发布于湖北
举报
版权申诉

深度学习方法在搜索用户行为模型构建中应用.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

深度学习方法在搜索用户行为模型构建中的应用刘奕群，王超清华大学计算机科学与技术系 yiqunliu@ 从用户行为信息中挖掘偏好信息已经成为了改进搜索引擎效果的热门研究方向，搜索引擎基于其记录的海量用户交互行为数据在点击预测、搜索排序和查询推荐等方面都取得了明显的进步。然而，尽管用户的点击行为数据为搜索结果的相关性评估提供了重要的指导，但把用户的点击多少直接当做相关性的依据这一做法在真实的搜索环境下却并不成立。大量已有研究工作表明，用户的点击行为受到多种因素（通常称为影响偏置）的复合影响，例如：点击位置偏置描述了用户的注意力分布在结果页面中自上而下依次下降的影响；可信度偏置描述了用户的点击和注意力资源均会向声誉较好的网站倾斜的偏好性影响；而展现形式偏置描述了不同展现形式的垂直搜索结果会影响用户的注意力分布和浏览顺序等等。为了描述这些影响，研究人员提出了一系列的点击模型用来描述用户与搜索引擎的真实交互过程。通过这些点击模型，我们可以推断出用户对每个搜索结果的检验情况以及每个结果与查询的相关性情况。一．点击模型概述大多数的点击模型都基于概率图模型框架进行设计，在这些点击模型中假设了很多组具有明确物理含义的变量来描述用户的浏览过程。这些变量既包括可观测的用户行为，如点击行为；也包括不可观测的隐含变量，如用户是否检验了某个搜索结果，该搜索结果是否相关以及用户在阅读该结果后是否满意等。不同的点击模型有着不同的用户行为和隐含变量假设。例如：Craswell等人提出的级联模型就假设，用户在未访问到相关结果前会逐一对各个搜索结果进行检验，而访问到第一个相关结果时则会直接进行点击并终止整个搜索过程。点击模型构建中，一旦设计好模型架构，我们就可以通过大规模的搜索点击日志数据来学习推断其中的隐含变量，例如：可以预测某个查询会话中用户对于搜索结果的点击概率，也可以推知对于某个特定的查询而言各个搜索结果的相关性数值。当前，尽管点击模型已经在大量搜索引擎实际应用（如搜索结果排序和广告投放）中取得了成功，但概率图模型框架仍然限制了相关模型的进一步改进。随着搜索结果的展现和交互形式变得越来越复杂，用户的交互行为也越来越难以被简单的行为假设（例如级联假设等）所描述。我们的近期研究发现，在相当比例的查询会话中，用户并不是按照自上而下的顺序逐一浏览搜索结果的。如果一个概率图模型框架想要把用户的复杂交互行为模式，甚至搜索结果的内容以及上下文之间的影响都加以描述，那么这个模型就必须引入大量的行为假设和隐含变量，并定义好各种变量之间的相互影响，这将会使得模型越来越难以推导和计算。受到这样的限制，大多数的点击模型都只是针对研究人员重点关注的部分浏览行为模式进行建模，而选择忽略其他的影响因素以简化模型。在这些未被考虑的因素中，结果本身的内容信息以及结果之间的上下文关联关系都对用户的行为产生着至关重要的影响。例如：结果内容中的强调（红色标记）文字内容和摘要选取方式都会对用户的点击行为产生影响。而结果与结果之间的内容更是存在着依存与排斥的关系。考虑到搜索结果的内容之间可能存在有重复和互补的情况，大多数点击模型引入的独立性假设（即用户对某个结果的点击行为仅取决于这个结果自身的相关性而与其他结果无关）其实是不合理的。目前，有部分研究人员开始尝试将结果内容信息引入点击模型构建中，并取得了一定的进展。然而，这部分工作并没有考虑结果之间的上下文影响，而根据我们的实验，这一信息对点击预测和相关性预测也有很明显的帮助。二．基于卷积神经网络的点击模型在本工作中，我们尝试寻找一种比概率图模型框架更有优势的构建描述用户点击行为的点击模型构建方式。为了将结果内容和上下文影响信息考虑进来，我们尝试基于深度神经网络框架进行点击模型构建。深度神经网络可以有效的从大量的输入信息(特征) 中有效地自主学习特征之间的影响和作用。根据最新的研究表明，卷积神经网络(CNN)可以在自然语言处理等问题上取得很突出的提升效果。深度神经网络最大的优势，是可以将大量的潜在有影响的特征进行融合学习，而不需要先验知识将这些特征显示的组合。另外，在问答系统的相关研究中，一些最新的研究成果表明卷积神经网络可以有效地对问答系统中的答案的相关性进行建模和预测。与点击模型利用用户的行为信息不同