语义检索 _原创精品文档.pdfVIP

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

在数字图书馆中,信息检索存在明显不足。在文献的组织与描述上,简单将关键词作为描述文

献的基本元素,文献之间没有关联,是相互独立的、无结构的集合。在检索操作上,通常是基于关

键词的无结构查询,难以反映词语间各种语义联系,查询能力有限,误检率和漏检率很高,检索结

果的真实相关度较低;计算查询和文档之间的相似度的方法也有局限。在用户交互界面上,用

户的检索意图难以被机器理解,采用自然语言输入的检索关键词与机器的交互存在障碍。现有

数字图书馆信息资源检索存在资源表示语义贫乏和检索手段语义贫乏、查准率低下等问题,语

义网技术的出现,为数字图书馆的发展注入了新的活力,为信息检索质量的提高带来了新的生

机。运用语义网技术,使解决信息检索中现存的问题,完善信息检索流程成为了可能。3.1数

字图书馆信息检索模型目前数字图书馆的信息检索主要借助于目录、索引、关键词方法来实现,

或者要求了解检索对象数据结构等,对用户提供的关键词的准确性要求较高,基于语法结构

进行检索,却不能处理复杂语义关系,常常检索出大量相关度很差的文献。

图3.1数字图书馆信息检索模型用户通过检索界面,输入关键词,文本操作系统对用户的关键

词进行简单的语法层次的处理整合,与数字图书馆资源进行匹配检索,最终将检索的结果,再

通过用户界面返回给用户。而数字图书资源,专业数据库等都是数字图书馆信息检索的范畴,

这些数字化的知识资源主要以数据库形态分布于全球互联网的数千个站点,这种以数据库形式

存放的信息资源,通常是电子化了的一次文献,包括元数据、摘要或者是全文,也可以是全文链接

的地址。

24基于语义网的数字图书馆信息检索模型研究

3.2基于语义网的数字图书馆信息检索模型的设计思想数字图书馆信息检索系统存在诸多问

题。查询服务智能化水平低,无法对用户请求进行语义分析;信息资源的共享程度低,仅仅采

用题名、文摘或全文中出现的关键词标识文献内容,难以揭示文献资料所反映的知识信息,易

形成信息孤岛;对用户输入的关键词进行句法匹配,查准率不高;片面追求查全率,返回大量

无关结果等。这些问题最终造成用户的真正检索意图难以实现。人们希望有突破性的信息检索

技术出现,能够支持更为强大的信息检索功能,具备理解语义和自动扩展、联想的能力,并为

用户提供个性化服务。在这样的需求下,本节深入探讨了现存问题的解决方法,结合语义网技

术,提出了以下基于语义网的数字图书馆信息检索模型的设计思想。3.2.1机器理解与人机交

互人们通过信息的交流和沟通,表达一定的思想、意思和内容,因此,自然语言和表达的信

息中蕴含着丰富的语义。尤其是自然语言中,一词多义、一义多词现象十分常见,在不同的语

境中,同样的词汇还可以表达出不同的意义。在人与人的交流中,近义词、反义词、词语的词

性、语法结构等帮助人们在特定的语言环境中理解语言表达的确切含义,而计算机要做到这点

却有难度。随着网络的不断发展,网络信息充斥着人们的视野。如何在浩如烟海的信息资源

中,以最短的时间查找出相关资源,成为人们所关注的问题之一。通常,检索系统总会返回相

关度不高,甚至完全无关的信息,而有些相关的信息却往往被遗漏了。一方面,检索工具没能

把已经存在的、对用户有价值的信息检索出来,另一方面,信息资源没有很好的被归纳,提炼

成知识。利用语义网技术,将语义丰富的描述信息和资源关联起来,通过机器理解和人机交

互,对信息资源进行深层次的分析和挖掘。从本质上讲,人机交互是认知的过程,主要通过系

统建模、形式化语言描述等信息技术,最终实现和应用人机交互系统。3.2.2语义知识与描述

逻辑从语义学的角度讲,语义是语言形式表达的内容,是思维的体现者,是客观事物在人们

头脑中的反映[72]。人们在进行信息交流和沟通时,通过词语、符号来表达思想。当人们看到

或听到语境中的一个词语或符号时,能够准确、迅速的对应到相关的事物、事件,这是由于借

助了人类头脑中已有的相关概念。当人们在

第三章基于语义网的数字图书馆检索模型研究25

语言交流中提到词语、符号时,往往先在头脑中寻找出相关的概念。这些概念是人们在学习生

活中不断积累得到的,对已有事物的认识和认知。当相关的概念被找到,凭借这些相关概念的

帮助,人们可以迅速链接到对应的事物,从而准确获知相应的信息。词语、符号正是代表了相

应的事物、事件,而人们的获知却是需要经过概念语义上的理解,最终准确地锁定事物、事件,

这样就构成了语义知识图。

图3.2语义知识图知识是建立在逻辑的基础上。逻辑是在形象思维和直觉顿悟思维

文档评论(0)

132****5766 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档