- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第34卷 第2期 桂 林 理 工 大 学 学 报 Vol34No2
2014年5月 JournalofGuilinUniversityofTechnology May 2014
文章编号:1674-9057(2014)02-0327-05 doi:103969/j.issn1674-9057201402020
基于知网的、受限领域的中文命题相似度计算
叶恒舟,郑宇 ,牛秦洲
(桂林理工大学 信息科学与工程学院,广西 桂林 541004)
摘 要:简单命题的语义识别是进行自然命题逻辑推理的重要基础之一,知网在中文词汇和句子的相似度
计算方面扮演着越来越重要的角色。在对领域命题进行了预处理后,针对简单命题的句型结构和构成成分
的特点,通过改进义原相似度、词语相似度、句子相似度的计算方法,提出了一种基于知网的、新的句子
相似度计算方法。实验表明:该方法可以简单而有效地计算词语相似度;在句子相似度计算时,可以减少
助动词、修饰词的影响,更适合判断两个命题是否高度相似。
关键词:知网;词语相似度;句子相似度;语义识别
中图分类号:TP311 文献标志码:A
[4]
基于关键词的搜索在精确性上很难让人满意, 利用大规模的语料进行统计 ;根据本体知识来
一些学者研发了基于自然语言的FAQ系统[1-2], 计算[5-6]。前者能够比较精确的度量词汇之间的
这类系统一般依赖于完备的问题知识库,通过把 语义相似度,但依赖于训练所用的语料库,计算
用户的问题与知识库中的问题进行匹配来搜索答 量较大;后者一般把概念知识组织成一棵或多棵
案。对于稍微复杂些的系统,建立完备的问题知 语义树,根据概念之间的关系来计算其相似度,
识库,工作量大甚至不太现实,引入基于自然语 这类方法简单有效,但受专家所划分的词汇知识
言的逻辑推理思维[3]有望解决这个问题,这就需 概念体系影响较大。鉴于目前已有比较健全的语
义词典,本文利用知网 ( [7]
要解决用自然语言描述的故障信息的语义理解问 HowNet) ,结合领域
题,它是实现命题符号化的基础。 内的专有概念库、习惯用语同义词库来计算词汇
本文旨在解决用自然语言描述的命题的语义 相似度。句子相似度的计算也有多种方法,如文
理解问题,即判断两个命题的语义相似度。为了简 献 [8]考虑了词语在句子中共现的次数,但忽略
化问题,对用户的故障描述信息提出如下假设: 了词汇的语义与语句信息;文献 [9-10]同时考
1)用户采用命题来描述故障信息,且每个分句都 虑了词汇共现的次数及语义,但忽略了句型结构
是一个原子命题;2)每个原子命题语法结构是正 的影响;文献 [11-12]加入了对句型结构的考
确的、语义是明确的;3)每个原子命题都属于两 虑,但没有把句型与语义联系起来;文献 [13]
种最为典型的句型结构之一:动宾结构(主语 +谓 提出了一种排序和划分区间的方法;文献 [14]
语+宾语)及系表结构(主语+系动词+表语)。 分析了简单问句的关键词成分并在计算相似度时
词汇及句子语义相似度计算在自然语言理解、 加以考虑,本文借鉴了该思想,针对原子命题的
信息检索、文本分类、机器翻译等领域有着广泛 句型结构的特点,在计算句子相似度时同时考虑
的应用。词汇语义相似度计算大致可以分为两类: 了句子成分及词汇的相似度。
收稿日期:2013-04-01
基金项目:国家自然科学基金项目 ;广西教育厅科研项目 (201106LX251)
作者简介:叶恒舟 (1980—),男,硕士,副教授,计算机应用专业,2002
您可能关注的文档
- 农村老年糖尿病患者自我管理能力的质性研究-井冈山大学学报.PDF
- 农电一体化管理信息系统的建设方案及实施-内蒙古电力技术.PDF
- 减负-北京城学院.PDF
- 减轻学生过重课业负担必须标本兼治.DOC
- 冷战-铜仁二中.PPT
- 农药监督管理和农化服务模式创新研究-中国农药信息网.PDF
- 出版理论中几个命题关系的探讨-轻工学报.PDF
- 分类所得税制模式的现实困境及其改革-中国发展.PDF
- 切忌主观随意性.PPT
- 刚强壮胆–谈珍惜生命.DOC
- 基于纹理的复杂环境下道路消失点检测算法-计算机应用与软件.PDF
- 基于知行合一的手动用具设计探讨-包装工程.PDF
- 基于知网的甲骨卜辞释义问题的可拓性研究.PDF
- 基于联合分类器的非自然图像检索-计算机应用与软件.PDF
- 基于联系数犪+犫犻理论的学生综合素质评价方法-河北科技大学学报.PDF
- 基于视觉传达设计领域的互补设计方法研究-包装工程.PDF
- 基于语料库的moreandmore-北京第二外国语学院学报.PDF
- 基于窄带载波和微功率无线双模通信技术-北京博维亚讯技术有限公司.PDF
- 基于集体记忆视角的战争景观遗产.PDF
- 基于车联网数据挖掘的营运车辆驾驶速度行为聚类研究-交通运输系统.PDF
最近下载
- 光伏电站组件安装前测试记录及电源并网前单位工程调试报告(记录).doc VIP
- QCR 749.1-2020 铁路桥梁钢结构及构件保护涂装与涂料 第1部分:钢梁.docx VIP
- MTBE生产技术知识问答.pdf VIP
- (2025春新版本)部编版一年级语文下册《 端午粽》PPT课件.pptx VIP
- 第20课 第一次工业革命 课件(共25张PPT).pptx VIP
- 颖川陈氏经秀族谱目录.doc VIP
- 2025年河北省国富农业投资集团有限公司人员招聘笔试备考试题及答案解析.docx VIP
- 新人教版五年级数学上册《★掷一掷》部级优课陈萍老师—省级公开课课件.ppt VIP
- 古野GPS操作说明书中文_GP170.PDF VIP
- TT310系列超声波测厚仪.PDF VIP
原创力文档


文档评论(0)