- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于汉语框架网络本体问答系统中语句相似度计算
基于汉语框架网络本体问答系统中语句相似度计算[摘要] 基于概念图理论提出将汉语框架网络问答系统中问句的语义框架结构与检索文本中句子的语义框架结构的匹配问题转化为概念图匹配问题的思想,将查询概念图与资源概念图的相似度分为框架概念相似度、框架元素概念相似度及句子中语块相似度三个部分。测试表明,这种新的计算问句与答案候选句的语义相似度的方法较之传统基于关键词匹配技术的方法效率更高。
[关键词]概念图匹配 语句相似度 相似度计算
1 引 言
在整个问答系统中,信息检索模块处于一个中间地位,一方面,它接受问题分析模块所返回的带有加权系数的问句的特征信息;另一方面,它从大量收集到的文档集合中,找到与给定的查询请求相关的恰当数目的文档提交给答案抽取模块。信息检索模块对检索结果的筛选并不是一个精确的匹配过程,而是一个相似匹配过程,具有一定的模糊值,需要用相似度值来度量查询与文档集中某个文档之间的相似程度[1]。以用户的自然语言提问为检索入口的语义检索系统,需要衡量信息资源中答案候选句与问句的相似度,提取与问句相似度最大的句子,采用适当的格式向用户提交准确答案。因此,语句相似度的计算是信息检索模块的一个关键问题。
2 语句相似度的计算方法概述
语句相似度的衡量机制与对语句的分析深度密切相关。从对语句的分析深度来看,目前句子的相似度计算方法主要有两种:①基于向量空间模型的方法[2-3]。该方法把句子看成词的线性序列,不对语句进行语法结构分析,相应的语句相似度衡量机制只能利用句子的表层信息,即组成句子中词的词性、位置、词频等信息。由于不加任何结构分析,该方法在计算语句之间的相似度时不能考虑句子整体结构的相似性。②基于句法语义分析的方法[4-5]。这是一种深层结构分析法,对被比较的两个句子进行深层的句法分析和语义分析,找出句子的组成词汇信息及语义结构信息。
本文讨论的是封闭式问答系统中问句与检索文本中句子的相似度,由于汉语句子的表达形式是多种多样的,因此重点在于考察问句与检索文本中句子在语义上的相似度。我们采用基于概念图匹配的方法计算法律框架网络检索子系统中用户自然语言问句与答案候选句的语义相似度,该方法也属于第二种。
3 概念图及语义框架结构
3.1 概念图与概念图匹配
概念图是一个由一些结点和弧线组成的层次结构,其中结点用来表示概念,对应于本体中的类、属性或者实例等;而弧线则表示两个概念之间的关系,对应本体中的关系。
概念图的匹配不是概念图的完全匹配,而是概念图间的相似度计算。文献[6]中阐述了通过WorldNet中两个概念的语义距离得到类之间的语义相似度,然后将各个结点和关系的相似度按权值累加得出两个RDF图之间的相似度。文献[7]也用到了该方法来计算两个概念图之间的相似性。在这两篇文献中,分别把本体看作一个RDF图和一个概念图。为了避免计算时递归陷入无限循环,规定用户指定一个查询概念图的入口结点,已有的被检索的概念图也有一个入口结点,仅仅比较在两个概念图中同等位置的概念的相似性。Poole和Campebll在文献[8]中为概念图的匹配定义了三种相似度,即表层相似度(surface similarity)、结构相似度(structure similarity)和主题相似度(thematic similarity),表层相似度和结构相似度分别对应于待匹配的对象和关系的相似性,而主题相似度则取决于同时考虑概念和关系出现的特定模式。
3.2 基于汉语框架网络本体的句子语义框架结构
3.2.1 汉语框架网络本体 利用框架语义学原理,我们构建了汉语框架网络知识本体,并利用该本体知识对本地库中的文本进行了框架语义标注。按照框架语义学的思想,句子中一个含有述谓意义的词汇激活一个事件场景,场景中有各种角色参加[9]。在汉语框架网络数据库中,这个被激活的事件场景被称为“框架”(Frame),参与到场景中的角色被称为框架元素(Frame Element, FE),句子中那些含有述谓意义的词汇就是所激活框架的词元(Lexical Unit,LU)。此外,“框架”之间的相互作用形成多样化的框架间关系,包括横向关系和纵向关系。例如,依照概念间的相似性比较形成概念的逻辑关系,属种关系(继承关系)、使用关系、参照关系等;根据概念的个体在空间或时间上的连接性形成总分关系、因果关系等。
3.2.2基于汉语框架网络本体的句子语义框架结构 本文所定义的语义框架结构是指利用汉语框架网络本体知识对本地库中或网络上的文本、句子进行概念分析并采用标准化的形式对句子进行框架语义标注所形成的句子的语义逻辑结构,是对句子基于概念层面的、机器可识别的语义理解。
Fillermore曾经这样定义框架这个概念:“当使用框架这个术语时,我心里想到的
文档评论(0)