- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于知网句子相似度计算探究
基于知网句子相似度计算探究摘要:对基于知网的句子相似度计算方法进行了改进,对句子进行分词处理后,利用句子的结构信息,对每个已经切分的词语进行功能语块的标注,对不同语块词语进行比较处理,以确定其权值。实验表明,考虑句子的功能成分从而计算句子相似度的方法是可行的,并且能够取得较好的效果。
关键词: 语义;相似度;知网;功能语块
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2012)29-7073-03
对词语的语义相似度计算在非常多的领域中有着广泛的应用,例如信息检索、文本分类、词义排歧、信息抽取、基于实例的机器翻译等等。其中在词语语义相似的基础上进行句子相似度计算又有着非常广泛的应用背景,例如自动问答系统中问题与答案的最佳匹配、自动文摘系统中通过计算句子相似度抽取文摘句,信息过滤技术中的句子匹配、基于实例的机器翻译中通过计算句子相似度来以该句子的译文为模板生成最佳的翻译结果等。目前计算句子相似度的方法主要有以下两种方法:基于词语共现的统计方法和基于词语的语义信息的分析方法,前一种方法主要是采用字符串匹配,在两个待比较的句子中,计算相同的词语个数与两个句子总词数的比例,如北京大学计算语言所提出的一种句子相似度计算公式:
其中m,n 分别表示两个句子的词数。而c 是两个句子中相同词的数目,这种方法虽然非常简单高效,但是忽视了词汇的词法和语义信息,句子的相似停留在词形的匹配上,不能区别在语义上相似的句子,缺乏对语义的理解和支持,因此在计算句子相似度上不够准确。后一种种方法虽然考虑到了词语的语义信息,能够区别在语义上相似的句子,但是没有充分利用句子的结构信息,即各个词语在句中的成分。笔者在综合考虑了这两种方法的优缺点之后,提出了一种基于知网的句子相似度的计算方法。该方法在对句子进行功能语块标注的基础上,对处于相同功能语块的词语赋予较大的权值,对处于不相同功能语块的词语赋予较小的权值,然后利用利用《知网》【1】对经过分词的语句的词语集进行加权平均来计算句子的相似度。这样不仅考虑了句子中词语的语义信息,而且通过分析词语在句中充当的组成成分,充分利用了句子的结构信息,从而对语义且句型结构相似的句子的相似性有了更加准确地描述。
1 基于《知网》的词语语义相似度计算
词语的语义相似度计算主要有两种方法:一种是基于世界知识或分类体系的方法,这种方法需要借助某种领域知识,例如本体库的建立,或比较完备的大型语义词典,现在比较成熟的词典有根据其概念间的上下位关系和同位关系计算词语相似度的WordNet和《同义词词林》[2],以及根据义原的上下位关系计算词语相似度的《知网》,另一种是应用也比较广泛的基于统计的上下文向量空间模型方法[3](VSM),该方法需要借助于大规模语料,能够对词语的语义相似性进行比较精确的度量,但是计算量比较大, 而且计算方法复杂。这里我们采用了语义知识描述得比较详尽的《知网》作为词语语义相似度计算的词典。
《知网》是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库[1]。《知网》中对词语语义的描述是通过“概念”阐述的,每一个词语可以表达为几个概念,即同一个词语在不同的上下文会有不同含义。本文为了便于讨论没有对词义进行排歧,概念的选取见下文。概念又是由“义原”来描述的。“义原”是描述一个“概念”的最小意义单位。“义原”之间存在着多种关系,其中非常重要是上下位关系,根据义原间的这种关系,所有的“基本义原”组成了一个义原层次体系(如图1 )。这个义原层次体系是一个树状结构,这是我们进行词语语义相似度计算的基础。
2 句子相似度计算
目前,基于《知网》的句子相似度计算主要方法是通过计算两个句子包含的词语集的相似度来得到句子的相似度,例如对于两个句子S1和S2,先通过分词处理,排除那些对句子相似度计算作用不大的虚词、数词、介词等词语,只对一些对句子语义有重要影响的的名词,形容词等进行处理,分别得到各自的词语集,句子S1有n个词语:W11,W12,…W1n。句子S2有m个词语:W21,W22,…W2m。词语集的相似度的计算参考了刘群【5】关于集合的相似度计算,计算过程如下:
1) 首先计算两个词语集合的所有词语两两之间的相似度;
2) 从所有的相似度值中选择最大的一个,将这个相似度值对应的两个词语对应起来组成词语对;
3) 从所有的相似度值中删去那些已经建立对应关系的词语的相似度值;
4) 重复上面的第2 步和第3 步,直到所有的词语对都被删除;
虽然这种方法能够区别在语义上相似的句子,但是没有充分利用句子的结构信息,即各个词语在句中的成分。本文提出了一种基于《知网》的句子相似度计算的改进方法,
您可能关注的文档
最近下载
- YY0306-2018 热辐射类治疗设备安全专用要求.pdf VIP
- 电力工程项目建设用地指标(风电场)(建标〔2011〕209号).pdf VIP
- 商品混凝土采购组织供应、运输、售后服务方案.docx VIP
- 《合成生物学》课件.pptx VIP
- 《中国文化概况》带翻译版.pdf VIP
- 消除艾滋病、梅毒和乙肝母婴传播项目工作制度及流程(模板).docx
- 2.1.2 认识地球(第2课时 地球仪与经纬网)七年级地理上册课件(湘教版).pptx VIP
- 二年级上册1-8单元看图写话.pdf VIP
- YY/T 0061-2021特定电磁波治疗器.pdf
- 沥青路面旧路改造工程施工方案.docx VIP
文档评论(0)