- 1、本文档共126页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
实体关系网中专搜索的排序学习问题研究
摘要
摘 要
近年来以实体搜索为特点的专业搜索引擎的竞争在如火如荼的上演,实体
搜索技术的研究与应用已成为信息检索领域一个新的关注焦点。作为这种新搜
索模式的典型代表,给出一个搜索关键词,专家搜索系统找出一些相关的专家
而不是相关的文档或网页。可以说专家搜索引擎能够直接满足特定领域和范围
用户的特殊信息搜索需求,这些需求是传统的网页级别信息检索方式很难满足
的。专家搜索技术的研究将更直接地方便人们在生活、学习、科技开发、商用
等各个领域的活动和工作。
’ 专家搜索的核心技术是专家排序问题,即在大规模数据中如何对与查询相
关的专家进行排序。近些年基于机器学习理论的排序学习方法越来越多的应用
到信息检索中来解决排序问题。排序学习是通过对已标注数据进行学习,以在
训练数据上经验风险最小作为优化目标,由此得到的排序模型来对未知数据进
行排序预测。目前用于信息检索的排序学习方法建立在基于文本内容的信息检
索模型之上,即假设待排序样本间没有关联,排序特征主要来源于文档自身的
描述信息。
专家搜索作为一种新的搜索模式,其信息的组织方式和搜索性质与传统的
信息检索不同。通过对专家搜索的整体过程进行分析,我们发现专家搜索中存
在着由信息组织方式导致的同源样本间排序相关性以及由权威性搜索导致的样
本间排序相关性。在真实数据实验中我们进一步发现这些基于实体关系的样本
间排序相关性出现频率较高,如果简单的忽视这类信息可能丢失大量对搜索任
务有效的信息,这是传统基于文本内容信息检索方法所不能弥补的。因此,将
传统信息检索中基于文本内容排序学习模型直接用于专家搜索并不能很好的解
决这一问题。
针对于专家搜索的特性,本文首次提出了实体关系网中专家搜索的排序学
习问题,并对这一问题描述为这样的形式Y=f(h,R),其中h表示基于文本内容
的信息对专家排序的作用,R表示实体间关系对专家排序的作用,最终的排序模
型厂为融合基于文本内容和基于实体关系两类信息的综合的模型。本文还指出专
家搜索中实体间关系模型R是在同类实体内部关系以及不同类实体的类间关系
摘要
综合作用的结果,h、R以及两者合并的方式.厂都是未知的情况;同时针对这一
问题提出了本文的解决思路:先确定实体关系网的作用方式R,然后设定基于文
本内容的作用方式为线性排序模型的形式h(x;co),之后通过寻找两者较优的融
合方式进一步确定最终的排序模型f(h,R);在此基础上本文进一步提出了适用
于实体关系网中专家搜索框架。
针对于专家搜索中实体关系网的作用方式,本文首次提出与查询相关实体
权威度概念用于描述实体关系网的作用;同时在此基础上提出与查询相关实体
权威度关系模型,该模型旨在通过模拟给定查询下样本间实体权威度传播的过
程来对专家搜索中实体关系网的作用进行定性定量描述;接着本文迸一步提出
一种基于齐次马氏链的方法用于求解给定查询下相关专家的实体权威度。
本文的研究目标为构建适用于实体关系网中专家搜索的排序学习模型。针
对这一目标,本文首次提出了一种基于Boosting思想的实体关系网中专家搜索
的排序学习模型。一方面该模型提供了一种多排序器集成的机制,有效的融合
了基于本文内容的信息和基于实体关系的信息,使得两类信息协作地完成专家
排序任务;另一方面来看,该模型继承Boosting算法的优点,通过迭代融合的
方式逐步提高算法的排序精度,使得最终模型具有较高的排序性能。
除此之外,本文在真实数据集上完成整个论文中的实验,实现了从原始网
页数据到得到专家搜索结果的全部过程。本文实验部分涉及到专家搜索数据准
备部分、命名实体抽取部分、相关实体获取部分以及实体排序部分。最终实验
结果表明本文所提出的实体关系网中专家搜索的排序学习方法能够非常有效的
捕获到与查询相关的权威专家,与传统基于统计语言的模型和基于文本内容的
排序学习模型相比序列顶部的排序性能(MAP)以及序列整体的排序性能(Bpref,
P@5….P@1000)都有明显优势。
关键词:实体搜索专家搜索实体关系网排序学习多排序器融合
Abstract
一_————————————————_—————_—————_—————_-_——————一
strac
您可能关注的文档
- 三维地形动态多辨率建模与关键算法的研究.pdf
- 三维场景建模关技术研究.pdf
- 三维地震数据断检测方法研究.pdf
- 人体脉象建模及诊仿真研究.pdf
- 人体运动捕获数的分割算法研究.pdf
- 人脸检测及瞳孔位的研究.pdf
- 协同过滤算法中型相似度计算方法的研究.pdf
- 像素位置与像素双重置换的混沌加密研究.pdf
- 双目立体视觉匹算法研究.pdf
- 人脸识别中光照变量提取算法研究.pdf
- 2024-2025学年人教版小学数学四年级下册教学计划及进度表.docx
- 2024-2025学年北师大版小学数学二年级下册教学计划及进度表.docx
- 2024-2025学年人教版小学数学五年级下册教学计划及进度表.docx
- 2024-2025学年人教大同版(2024)小学英语三年级下册教学计划.docx
- 2024-2025学年人教精通版(三起)(2024)小学英语三年级下册教学计划.docx
- 2024-2025学年统编版初中道德与法治八年级下册教学计划及进度表.docx
- 2024-2025学年统编版(2024)初中道德与法治七年级下册教学计划及进度表.docx
- 2023-2024学年上海黄埔区中考二模综合测试(物理部分)试卷及答案.pdf
- 2024-2025学年外研版(三起)(2024)小学英语三年级下册教学计划及进度表.docx
- 2025届北京市北京第四中学高三冲刺模拟数学试卷含解析.doc
最近下载
- 统编版(新教材)一年级下册语文第二单元《热爱中国共产党》第1课时教学课件.pptx VIP
- SAE AMS8660-2018 硅酮化合物代号S-736.pdf
- 2024年统编版(高中)政治新教材必修3政治与法治第一次月考试卷 2套汇编(含答案解析).pdf
- “技能兴威”第一届威海市职业技能大赛“无人机操控”赛项实施方案.docx
- 2024年阳泉职业技术学院单招职业技能测试题库及答案(必刷).docx VIP
- 武汉市2025届高中毕业生二月调研考试(二调)数学试卷(含答案详解).pdf
- 《基于哈佛分析框架的房地产公司财务研究国内外文献综述5100字》.pdf VIP
- 新12J01图集 工程作法.pdf
- 《热爱中国共产党》课件-2024-2025学年统编版语文一年级下册第二单元阅读1.pptx VIP
- 详解2025《增值税法》课件.ppt
文档评论(0)