基于知网的受限领域的中文命题相似度计算.PDF

基于知网的受限领域的中文命题相似度计算.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第34卷 第2期 桂 林 理 工 大 学 学 报 Vol34No2 2014年5月 JournalofGuilinUniversityofTechnology May 2014  文章编号:1674-9057(2014)02-0327-05      doi:103969/j.issn1674-9057201402020 基于知网的、受限领域的中文命题相似度计算 叶恒舟,郑宇 ,牛秦洲 (桂林理工大学 信息科学与工程学院,广西 桂林 541004) 摘 要:简单命题的语义识别是进行自然命题逻辑推理的重要基础之一,知网在中文词汇和句子的相似度 计算方面扮演着越来越重要的角色。在对领域命题进行了预处理后,针对简单命题的句型结构和构成成分 的特点,通过改进义原相似度、词语相似度、句子相似度的计算方法,提出了一种基于知网的、新的句子 相似度计算方法。实验表明:该方法可以简单而有效地计算词语相似度;在句子相似度计算时,可以减少 助动词、修饰词的影响,更适合判断两个命题是否高度相似。 关键词:知网;词语相似度;句子相似度;语义识别 中图分类号:TP311               文献标志码:A [4] 基于关键词的搜索在精确性上很难让人满意, 利用大规模的语料进行统计 ;根据本体知识来 一些学者研发了基于自然语言的FAQ系统[1-2], 计算[5-6]。前者能够比较精确的度量词汇之间的 这类系统一般依赖于完备的问题知识库,通过把 语义相似度,但依赖于训练所用的语料库,计算 用户的问题与知识库中的问题进行匹配来搜索答 量较大;后者一般把概念知识组织成一棵或多棵 案。对于稍微复杂些的系统,建立完备的问题知 语义树,根据概念之间的关系来计算其相似度, 识库,工作量大甚至不太现实,引入基于自然语 这类方法简单有效,但受专家所划分的词汇知识 言的逻辑推理思维[3]有望解决这个问题,这就需 概念体系影响较大。鉴于目前已有比较健全的语 义词典,本文利用知网 ( [7] 要解决用自然语言描述的故障信息的语义理解问 HowNet) ,结合领域 题,它是实现命题符号化的基础。 内的专有概念库、习惯用语同义词库来计算词汇 本文旨在解决用自然语言描述的命题的语义 相似度。句子相似度的计算也有多种方法,如文 理解问题,即判断两个命题的语义相似度。为了简 献 [8]考虑了词语在句子中共现的次数,但忽略 化问题,对用户的故障描述信息提出如下假设: 了词汇的语义与语句信息;文献 [9-10]同时考 1)用户采用命题来描述故障信息,且每个分句都 虑了词汇共现的次数及语义,但忽略了句型结构 是一个原子命题;2)每个原子命题语法结构是正 的影响;文献 [11-12]加入了对句型结构的考 确的、语义是明确的;3)每个原子命题都属于两 虑,但没有把句型与语义联系起来;文献 [13] 种最为典型的句型结构之一:动宾结构(主语 +谓 提出了一种排序和划分区间的方法;文献 [14] 语+宾语)及系表结构(主语+系动词+表语)。 分析了简单问句的关键词成分并在计算相似度时 词汇及句子语义相似度计算在自然语言理解、 加以考虑,本文借鉴了该思想,针对原子命题的 信息检索、文本分类、机器翻译等领域有着广泛 句型结构的特点,在计算句子相似度时同时考虑 的应用。词汇语义相似度计算大致可以分为两类: 了句子成分及词汇的相似度。  收稿日期:2013-04-01  基金项目:国家自然科学基金项目 ;广西教育厅科研项目 (201106LX251)  作者简介:叶恒舟 (1980—),男,硕士,副教授,计算机应用专业,2002

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档