- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
优秀硕士毕业论文,完美PDF格式,可在线免费浏览全文和下载,支持复制编辑,可为大学生本专业本院系本科专科大专和研究生学士硕士相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文提供参考!!!
摘要
摘要
伴随互联网技术的快速繁荣发展,信息检索己经由纯粹的学术研究转变成
大多数人信息获取的技术基础。在绝大多数的信息检索系统中,其检索出来的
信息(如文档)都以排序的方式返回给用户。因此,如何高效地对文档进行排
序成为文档检索模型研究的核心问题之一。目前,利用监督学习的方法构造排
序模型是信息检索领域中排序方法研究的热点,称之为排序学习。基于人工标
注的数据,排序学习算法构造出排序模型,并且将其用于预测新的未标注数据。
在实际的信息检索任务中,待排序的文档是由不同的查询检索得到的,因
此只有同一个查询检索到的文档之间才有序关系。数据集内不同查询及其候选
文档组成的数据子集之间存在很大差异,现有排序学习算法在建立排序模型时
把数据集中所有查询下的查询.文档对等同处理,无法充分反映由于文档归属于
不同的查询所造成的差异,影响排序模型的性能。
针对上述问题,本文提出体现查询差异的多排序模型融合理论框架,在建
立排序模型过程中考虑查询之间的差异。该框架首先以查询为单元将训练集划
分为多个训练子集,在每一个训练子集上建立子排序模型。接着,使用监督学
习方法融合建立的多个子排序模型,在融合过程中调节不同训练子集产生损失
的权重,提升排序模型的性能。在体现查询差异的子排序模型生成方法上,从
查询及其相关文档之间的内容和单个查询及其相关文档建立的排序模型两个角
度度量查询之间的差异程度。本文在真实文档检索数据集上分析查询之间的差
异和不同查询相似度度量方法对排序结果的影响。
在体现查询差异的多排序模型融合理论框架下,本文提出基于支持向量机
的体现查询差异排序学习算法。将训练集划分为多个训练子集,每一个训练子
集由一组相似的查询及其相关文档组成。对每一个训练子集,使用排序支持向
量机方法建立子排序模型。不同子排序模型之间可以表征出查询差异对排序的
影响。进一步设计基于支持向量机理论的融合函数融合多个子排序模型,并且
对融合函数的构造进行了详细的说明和分析,阐述了其工作原理和性质。本文
将融合函数的优化问题转化为一个等价二次规划问题求解,进一步证明了融合
函数可以体现不同子排序模型产生的损失,并在优化过程中调节子排序模型产
I
摘要
生损失的权重。
针对评价指标与损失函数不一致对应的情况,结合排序问题的特性,本文设
计一种直接优化评价指标的融合函数来融合子排序模型,进一步修正融合排序
模型,提升模型性能。由于大多数评价指标不连续、不可导,因此不易直接优
化评价指标。本文使用连续函数拟合评价指标中不连续的部分,优化其下界函
数,并证明了其下界函数的凸性,而后使用梯度上升方法进行优化。本文还证
明了直接优化评价指标的融合函数可以取得比子排序模型线性合并更好的排序
性能。
体现查询差异的多排序模型融合方法在信息检索中有着非常广泛的应用。
在文本检索、网页搜索和较大规模文档检索等实际任务中,本文验证了体现查
询差异的多排序模型融合方法在信息检索中的应用效果。基于大规模公共数据
集合的实验表明,本文提出的体现查询差异的多排序模型融合方法能够比当前
流行的排序学习算法取得更好的排序性能。本文还在实验结果统计、算法有效
性和时间复杂度等方面对实验进行分析。本文提出的多模型融合思想除排序学
习之外,还可应用于多类分类、序列标注等问题,在信息检索、网络搜索、图
像处理和生物信息学等领域具有广泛的应用前景。
关键词:信息检索排序学习查询差异模型融合支持向量机评价指标优化
Ⅱ
Abstract
’Abstract
Asthe WideWeb to
World grows becomethe andthemost
rapidly largest
sourceof available is
informat
文档评论(0)