- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第l2卷 第l期 深圳信息职业技术学院学报 V01.12No.1
2014年3月 JournalofShenzhenInstituteofInformationTechnology Mar.20l4
文章编号:1672—6332(2014)01—0056—06
【信息技术应用研究】
基于语义依存关系匹配的汉语句子相似度计算
汪卫明,梁东莺
(深圳信息职业技术学院教学督导室,广东深圳518172)
摘 要:在中文信息处理中,句子相似度计算是一项基础而核心的研究课题,长期以来一直是人们研究的一个热点
和难点。句子相似度计算在实际中有着广泛的应用,它的研究状况直接决定着其他一些相关领域的研究进展,如信息检
索的相似句子匹配、 自动问答的问题匹配与答案抽取等,句子相似度计算都是非常重要的环节。本文提 出了一种基于
依存关系匹配的句子相似度计算方法,利用词语内在概念和词语相互依存关系计算句子之间的相似度。结果表明,该
算法能显著提高返回结果的准确率。
关键词 :依存关系;关系匹配;词义相似度 ;依存关系相似度 : 自然语言处理
中图分类号:TP391.2 文献标识码:A
词词林4『等较为成熟的语义词典资源,根据其中的
1句子相似度的计算方法
语义分类体系,采用一定的方式计算词语之间的
目前,关于句子相似度的计算方法种类很多, 词义相似度,再通过词义相似度计算句子间的语义
从总体上看主要有以下几类:基于词语共现统计的 相似度 。】‘。这种该种方法充分考虑了句子中每个
方法、基于语义词典的方法、基于语法结构关系的 词的内在语义信息,对于计算句子相似性有一定的
方法以及基于词语排序的计算方法。国内学者从不 提高。但由于词典的不全面和词义消歧准确率的限
同方面f如向量空间模型、语义距离 、语义依存 、 制,也给计算带来了一定的误差。
公共短语等)来计算句子的相似度 ,下面分别介绍 1.3基于公共短语的句子相似度计算
相关研究人员采用的不同方法。 在现有的几种计算方法中,句子相似度计算的
1.1基于词语共现的方法 粒度一般是词语。在汉语句子中,词语是句子表达
基于词语共现统计的方法是一种最基本的方 的基本粒度,基于词语匹配的方法是一种 自然的选
法,将文档看成词语的集合,不需要对文本内容进 择。但是,这种基于词语的计算方法视句子为词语
行深层理解,只是通过词语共同的出现次数来计 的组合,没有考虑句子内部的组合关系,因此无法
算句子相似度¨。]。计算句子的相似度,等价于计算 准确的反映句子的内在信息组合。基于公共短语的
句子之间关键词的相似度,比较两个词之间的相似 计算方法是在词语粒度的基础上,更看重词语的组
度。有些研究人员在此基础上作了改进,考虑不同 合对句子相关性的区分 【,然而这种分析方法受句
词性的词语的重要性,设置了不同的权重 j。但归 子中词语表达选择的影响较大,意思相近的句子在
根结底 ,这是一种词频统计的方法,只考虑词语的 词语选择上有很小的变化相似度可能会差别很大,
统计特性,没有考虑词语的内在含义,因此实际效 通常只是在专业性较强的领域内比较有效。
果较为一般。 1.4基于语义依存的句子相似度计算
1.2基于语义词典的方法 依存句法是由法国语言学家L.Tesnier提出,对
基于语义词典的方法主要是借助知网、同义 计算语言学产生了深远的影响,通过分析句子内部
[收稿 日期】2014—3一l5
基【金项 目】广东省 自然科学基金 ($2011010006118),深圳市科技项 目(JCYJ20130401095947222)。
[作者简介1汗卫明(1982一),男(汉),安徽怀宁人.讲师,博士,主要研究方向:自然语言处理、信息检索、自动问答;
您可能关注的文档
最近下载
- DGTJ08-2001-2016 基坑工程施工监测规程.docx VIP
- 污泥( 废水)运输服务方案(技术方案).doc
- 中国特色国有企业公司治理结构的形成和发展 2025.docx
- 初中英语语法大全.pdf VIP
- 八升九分班考数学试卷.docx VIP
- DB3711_T 165-2025 中小企业劳动用工风险防控服务规范.pdf VIP
- DB3711_T 167-2025 夏玉米病虫害绿色防控技术规程.pdf VIP
- 北师大版八升九数学试卷.docx VIP
- 原子结构 高一化学人教版(2019)必修第一册.pptx VIP
- 沃尔沃-V90 Cross Country-产品使用说明书-2020款 T5 AWD 智尊版-V90CC T5 PZ10GC1-3110819w46V90CC_OMA~Z.pdf
文档评论(0)