- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
P2P环境下数字图书馆系统基于语义节点查询扩展研究
P2P环境下数字图书馆系统基于语义节点查询扩展研究 〔摘要〕针对传统数字图书馆中基于关键字的P2P查询扩展存在对用户检索词语义信息解释不足的缺陷,本文提出一种P2P环境下基于语义的节点查询扩展方法,通过把关键字关联表和本体相结合,实现了一种个性化查询扩展方法,同时利用这种扩展方法实现P2P中基于兴趣网络的搜索,能够较大幅度提升检索效率。 〔关键词〕P2P;语义扩展;关键字关联表;数字图书馆 随着信息技术的发展,数字图书馆的规模不断扩大,文本、视频、音频等流媒体资源急剧扩充,网络规模也不断扩大。为了解决传统客户机/服务器网络结构(C/S,Client/Server)在应对数字图书馆日益庞大的存储量和传输量带来的读者检索体验迟滞、传输速度缓慢的影响,点对点(P2P,Peer to Peer)技术被越来越广泛的应用在数字图书馆中,读者对建立在这种技术之上的数字图书馆检索性能的要求也越来越高,而查询扩展作为信息检索中的一个重要环节,对于改善信息检索中查全率和查准率非常重要。不同于C/S结构,由于非结构化P2P网络具有动态、完全分布式结构的优点,它在数字图书馆检索的应用虽然比较广泛,但仍然具有以下两类问题:(1)P2P中同样存在“词典问题”,即由于大多数用户提交的查询词都是短词,会出现缺少上下文信息而存在语义歧义现象;同时由于自然语言大量同义词的存在,很可能会导致用户所需要结果漏检。(2)传统的基于关键字的查询扩展会把与用户检索词不相似而相关的结果漏检也就是缺乏相关性推理机制,如,“医生”和“疾病”两个词语,尽管相关性很高,但由于其相似性非常低,所以经常被漏检。上述问题归结为一点,就是缺乏对读者检索关键字进行必要的语义信息和推理信息解释。然而虽然之前的基于语义查询扩展方法能够通过本体所提供的良好的层次化结构和推理机制在概念层次上对P2P中节点用户的查询关键词进行必要的解释和推理,但这种语义扩展方式下,由于本体库构建后是静态的,难以适应对新词或未收录词的扩展需求。为了避免上述问题,本文提出一种改进方法,即将关键字关联表和本体技术相结合,该方法首先利用节点本地本体库扩展检索词,然后采用历史查询记录中的关键字关联表再次对原始检索词进行扩展,最终对扩展结果进行权重更新,根据权重值从大到小输出扩展结果,以提高读者对检索结果的满意程度。 1相关理论基础 11查询扩展方法 “查询扩展”概念的提出,最早可以追溯到1986年,学者Van Rijsberge[1]指出“仅限于原查询词来提高系统的检索性能是有限的,必须对原查询进行修改以提高检索性能”,同时他还指出,查询扩展主要涉及原查询词的权重修改和加入与原查询相关的词。目前通过对现有大量国内外文献研究发现,不同学者从不同角度对查询扩展方法进行了研究,主要分为3个阶段:①基于关键字的查询扩展技术。这一阶段又按照扩展词来源不同有全局分析、局部分析、基于关联规则分析、基于用户查询日志分析以及上述方法的任意组合[2-3]。后来学者Song Jin等人[4]指出可以使用标签共现的方法发现扩展词。上述这些方法都是在符号匹配层次上进行的扩展,忽略了查询语义及查询概念之间的语义关联,因而没有充分表达和扩展用户查询意图,也就不能从根本上消除用户查询意图与检索结果之间的语义偏差和用户查询的歧义性问题,同时会出现查询漂移问题。②语义扩展阶段。该阶段主要是把本体技术或概念图等引入到查询扩展中,解决了对初始查询词语义信息的充分挖掘。虽然语义扩展能够清晰的表达用户检索词相关信息,但是单独使用语义扩展的缺陷也是比较明显的,例如,静态性或非即时性以及语料库无关性。③前两个阶段的融合。这时的研究目的是为用户提供个性化的查询扩展,使用的方法包括语义扩展与用户兴趣模型相结合、语义扩展与关联规则相结合、语义扩展与局部共现分析或互信息相结合、上下文感知矩阵与本体相结合、概念图与知网相结合、语义扩展与社会标签相结合等。 目前P2P中查询扩展主要有两大类:基于关键词的查询扩展和基于语义的查询扩展。目前基于关键词的查询扩展研究主要是根据节点用户历史记录进行查询扩展,具体又有两种方式:①分析用户历史查询记录,建立查询关键词与文档用词之间的关联关系,为下一次扩展提供候选词依据[5-6];②分析用户历史记录,建立查询关键词与文档之间的关联关系,可以对传统局部上下文分析技术进行改进[6]。而P2P中基于语义的查询扩展根据语义的表现形式不同,分为两种方式:①基于LSI的查询扩展方法,其主要思想是借助于LSI分别进行本地和远程扩展解决同义词问题,通过对两个扩展查询结果的集合操作解决P2P中存在的查询扩展问题[7];②基于本体的查询扩展方法,主要是指节点用户根据语义词典建立本体库[8]或利用大众标签建立本体库,据此进行查询扩展。 综
文档评论(0)