- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自然语言检索中的概念语义控制
论文导读:自然语言检索技术。概念检索。其具体实现形式也就是语义检索。迫切需要有一种新的智能检索技术的出现。语义检索,自然语言检索中的概念语义控制。
关键词:自然语言检索,概念检索,语义检索,智能检索
1 引言
面对浩如烟海的网络信息资源,传统的基于字面匹配的关键词检索方式已经不能够很好地满足用户的需求。实践证明,由于关键词检索是一种以词汇控制为主流控制方式的主题检索方式,因此在实际的检索结果中包含了大量与检索主题无关的内容,同时也漏检了许多与检索主题相关的内容,降低了检准率和检全率。在这种情况下,迫切需要有一种新的智能检索技术的出现,能够从概念(知识)的层面上来处理用户的检索需求,而不仅仅局限于字面匹配上。在这里,重点阐述如何将信息检索从传统的基于关键词匹配层面提高到基于概念(知识)层面,实现自然语言检索中的概念语义控制。
2 自然语言检索技术
自然语言检索技术的发展依赖于自然语言处理技术的发展。前些年,由于自然语言处理技术的发展一直处于一个较慢的水平,因此自然语言检索技术的发展受到了很大制约,进展缓慢。近些年来,随着自然语言处理技术的不断前进,自然语言检索技术的发展也上了一个新的台阶。
自然语言检索技术的发展主要依靠的是对检索概念进行语义上的控制,即进行语义层次上的自然语言检索,其具体实现形式也就是语义检索。语义检索是一种理想的检索方式,它以自然语言作为提问输入,经过语义处理,又以自然语言的形式将检索结果返回给用户,能够更好地满足用户的需求[1]。
3 概念检索
传统的搜索引擎多采用全文检索技术,对于要检索的信息仅仅采用机械的关键词匹配技术来实现。搜索引擎无法处理在用户看来非常普通的常识性知识,更不能处理随用户不同而变化的个性化知识、随地域不同而变化的区域性知识以及随领域不同而变化的专业性知识。
在很多情况下,用户很难通过简单地使用关键词或关键词串来获取真正需要检索的内容。另外,对于相同概念的检索,不同的用户也可能使用不同的关键词作为检索提问。这两方面的原因使得返回的检索结果中包含了大量的不相关信息。例如,计算机和电脑通常被看作是同一类概念,但应用传统搜索引擎检索的结果却往往大不相同,当用计算机或电脑分别
作为检索词进行检索时,所得到的检索结果中只是包含计算机或电脑方面的内容,而不是二者的全部,这就大大降低了检索系统的检全率。
在这种情况下,用户迫切需要一种新的智能搜索引擎的出现,这种结合人工智能技术的智能搜索引擎能够把信息检索从目前的基于关键词层面提高到基于知识(概念)层面,能够从概念意义层次上来认识和处理检索用户的请求。
3.1 概念的涵义
概念是关于具有共同属性的一组对象、事件或符号的知识,是事物本质属性的概括。它可能是具体地,也可能是抽象地刻画、定义了一个对象类的特征,是通过字、词、词组等概念描述元素表达出来的。同一个概念可以用多个抽象元素来表达,这些描述元素在此概念的约束下构成了同义关系,它们在此意义上可以等同起来。
概念并不是孤立存在的,一个概念总是与其它概念之间存在着各种各样的关系。具体来说,概念之间可以划分为三种关系:等同关系(同一关系)、等级关系(上、下位类关系)和相关关系(交叉关系、并列关系、矛盾关系、对立关系)。根据概念之间的相互关系,在词的概念含义层次上建立联系,为检索用户提供有关的结果分析是概念检索的一个应用前景。
概念之间的关系可以通过概念语义网络表示出来,概念语义网络是一个带有标识的有向图,其中,节点表示概念,有向边表示概念之间的关系,如图1所示。
图中实心点表示主题词(概念节点),空心点表示非主题词。
概念具有层次结构,不同层次表明其抽象的程度不同,层次越高概括性越强,包括的下位概念可能越多。上位概念由一组下位概念组成,上位概念常常是下位概念的抽象、概括或整体表示;下位概念往往是上位概念的属性、特征或说明,是对上位概念的补充和细化,它描述自己独有的属性,同时继承上位概念的属性。
除了层次关系之外,概念之间又具有各种联系。为了表示概念之间的相互联系,在树形结构的基础上添加横向关系,把各个独立的概念联系起来,如计算机和电脑及微电脑为同义关系。这些横向关系所连接的概念节点可以是任意层次上的任意节点,从而构成一个概念语义网络[2]。
3.2 概念检索
概念检索这一术语频繁地出现于信息检索、人工智能等领域的有关文献中,但迄今为止一直没有看见明确严格的定义。
Excite(http://)是美国加州Redwood城的Excite公司推出的一款智能搜索引擎,它实现了基于用户个性化定制知识库的中文文本概念检索,在概念层次上对用户的检索进行反馈,从
文档评论(0)