- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
                        查看更多
                        
                    
                基于《知网》的句子相似度计算的研究
一、《知网》介绍
知网(HowNet)是一个以汉语和英语的词语所代表的概念为描述对象的常用语言知识库,是由董振东和董强经过十多年的艰苦努力所创建的。对机器翻译、信息检索、文档复制检测和自动问答系统等领域的研究有重要意义,是目前中文信息处理所使用的主要知识库之一。现在针对中文的《知网一中文信息结构库》或许将成为中文信息处理的重要的甚至是不可或缺的资源之一。
      《知网》是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。“义原”和“概念”是《知网》的两个重要的语义表达方式。在《知网》中,每一个词可以表达为几个概念,“义原”是用于描述一个“概念”的“知识表示语言”所用的“词汇”,是不再分割的最小意义单位。目前,《知网》采用的义原分为事件、实体、属性、属性值、数量、数量值、次要特征、语法、动态角色和动态属性10大类。这些义原可以归为三组:事件、实体、属性、属性值、数量、数量值、次要特征这前面七类义原称之为“基本义原”,用来描述单个概念的语义特征;第八类的语法义原称之为“语法义原”,用于描述词语的语法特征,主要是词性;第九和第十类的动态角色和动态属性义原称之为“关系义原”,用于描述概念和概念之间的关系。《知网》义原描述如图2-1所示。
    在《知网》中,一个概念是通过一组义原来表示的,概念并不是义原层次体系中的一个节点,义原才是这个层次体系中的一个节点。而且,一个概念并不是描述为义原的集合,概念描述既有总的、一般性的描述,也有因不同类别的细节性描述,专门的《知网》知识词典的描述语言(Knowledge Dictionary Mark-up Language,KDML)用来描述概念,具体的描述方法参考《知网》官方文档。
常识性知识库是《知网》最基本的数据库,又称为知识词典。在知识词典中每一个词语的概念及其描述形成一个记录,每一个记录都主要包含八项内容。每一项内容都由用“=”连接两部分组成,是数据的域名在“=”的左侧,数据的值在“=”的左侧。每个词语由DEF来描述其概念,DEF由若干个义原及其与主干词之间的语义关系描述组成,其值不可为空。知网中的词语定义DEF中的概念类别代表了概念的主要属性,它们被组织在体现上下位关系的层级结构之中,主要属性体现了概念的本质属性。它们排列如下:
    W_ C/E=词语
    E C/E=词语例子
    G_ C/E=词语词性
    DEF =概念类别和属性
    其中,C表示中文,E表示英文,“概念类别和属性”是知识词典中最重要的信息,“类别”放在首位,“属性”放在其后,它们之间用逗号隔开,“属性”可以有多个,不同“属性”之间用逗号隔开。例如对“店”的描述:
    W_ C=店
      G-C=N
    E-C=~铺,商~,便民~,小卖~,专卖~,书~,布~,药~,花~,小吃~,精品
~,礼品~,玩具~
    W_E=shop
     G- E=N
      E-E=
    DEF=InstitutePlacel场所,* selll卖,@ b uyl买,co mmerci fall商
    这是“店”包含的一个概念类别和属性,还有其他的概念和属性。
    总体来说,《知网》描述了义原之间的各种下列关系:《知网》描述了义原之间的各种下列关系:(a)上下位关系;(b)同义关系;(c)反义关系;(d )对义关系;(e)部件一整体关系;O属性一宿主关系;(g)材料一成品关系;(h)施事/经验者/关系主体一事件关系;U受事/内容/领属物等一事件关系;中工具一事件关系;(k)场所一事件关系;U时间一事件关系;(m)值一属性关系;(n)实体一值关系;(o)事件-角色关系;(p)相关关系。义原之间组成一个复杂的网状结构,其中最重要的是上下位关系。根据上下位关系,所有的“基本义原”组成了一个义原层次体系,这个体系是一个树状结构,是进行语义相似度计算的基础。
   《知网》全部的主要文件包括知识词典、《知网》管理工具和说明文件构成了一个有机结合的知识系统。
二、基于《知网》的句子相似度计算
    本文的研究以文章内容相似度检测为背景,因此本文中的句子相似度指的是两个句子内容所表达的信息的相关程度。刘群研究了基于《知网》的词汇语义相似度计算,金博等人在刘群研究的基础上,进一步研究了句子相似度计算中概念计算准确性的问题。本节重点研究了刘群和金博等的方法,在此基础上,提出了本文的句子相似度计算方法。
    从前面有关《知网》的介绍知道,词语相似度的计算是句子相似度计算的基础。一个词语的语义一般包含一个或几个概念,《知网》中所有的概念都用义原(没有识别的词用具体词)来表示,句子相似
                您可能关注的文档
最近下载
- 测绘法规与工程管理(第2版)(下篇,共上下2篇).pptx VIP
- 高空作业平台直臂车安全技术交底模板.docx VIP
- 2024年连云港专业技术人员继续教育《饮食、运动和健康的关系》92分(试卷).docx VIP
- 2024《唯品会顾客满意度问题及完善对策研究实证分析》17000字.docx
- (正式版)DB42∕T 1343-2018 《顶管法管道穿越工程技术规程》.docx VIP
- 中国古代民间故事《梁山伯与祝英台》PPT课件.pptx VIP
- 《公路边坡柔性防护网技术规范》.pdf VIP
- 除尘器日常运行清理记录表.docx VIP
- 上海2022年7月建设工程信息价.xls VIP
- 《测绘法规与工程管理(第2版)》课件 西南 第12--14章 测绘安全生产管理、 测绘技术总结、 测绘成果质量检查验收.ppt
 原创力文档
原创力文档 
                        

文档评论(0)