- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
·444 · 中国科协第二届优秀博士生学术年会论文集
改进编辑距离算法与汉语句子相似度计算
夏 天 樊孝忠 骆正华 刘 林
(北京理工大学信息学院计算机系 北京 100081)
摘 要 汉语句子相似度计算在中文信息处理的各个领域中都占有重要地位。通过对编辑距
离进行有效扩展,提出了一种衡量句子相似度的定量计算方法和对应的多项式时间算法。该方
法以词取代字符作为基本的编辑单元,基于词汇语义计算替换代价,引人块交换操作计算语义编
辑距离,并对距离进行归一化以计算句子的相似度。实验结果表明,该方法的准确率优于已有
方法。
关健词 编辑距离 块交换 句子相似度 归一化
ImprovedEditDistanceAlgorithmandChinese
SentenceSimilarityComputing
XIATian,FANXiaozhong,LUOZhenghua,LIULin
(ComputerDepartmentBeijingInstituteofTechnology,Beijing100081,China)
Abstract.ChinesesentencesimilaritycomputationplaysanimportantroleineachfieldofChinesein-
formationprocessing.Onthebasisofeffectiveextensionofeditdistance,anewquantitativemeasuring
sentencesimilaritymethodanditsrelevantpolynomialtimealgorithmhavebeenproposed.玩thismeth-
od,eachwordisabasiceditunitinsteadofcharacter,andsentencesimilariytiscalculatedbycompu-
tingwordsubstitutioncostsemantically,blockswapoperationisintroducedintosemanticedit.distance
computingandnormalizationondistance.Experimentresultshowsthattheaccuracyofthenewmethod
issuperiortoexistingones.
Keywords editdistance,blockswap,sentencesimilariyt,normalization
1 引言
句子相似度计算在自然语言处理中有着广泛的应用,例如,在基于实例的机器翻译、自动问答、信息检
索以及拼写检查等领域,相似度计算都是一个非常关键的问题。
目前,已有多种方法用于相似度计算,如编辑距离法川,LCS法[21、移动窗口动态缩小法[31等,但这些
方法主要面向英文字符申处理,直接用于汉语句对时,效果并不理想。同时,国内学者也在这方面做了大
量研究,如穗志方、俞士坟提出了基于骨架依存树的语句相似度计算模型[a1;李素建基于知网和同义词词
林,提出了语句相关度的定量计算模型阁;吕学强等考虑词形相似度和词序相似度两个因索,提出了句子
相似模型和最相似句子的查找算法[61;车万翔等利用改进编辑距离进行中文相似句子的检索[[71;秦兵等采
用TFIDF法和基于语义的方法,面向常问间题集计算问句间的相似度[[8]。其中,文献4【〕的研究面向的是
机器翻译,主要强调在语法结构上的相似性;文献 5〔)[8]未考虑词序对根似度的影响,计算模型也存在明
显不足,如对于A“AAB,和“ABBB,形式的串,其计算结果为1,明显过高;文献6【]未考虑语义处理,对同义
词之间的替换无能为力;文献 7【〕未考虑块交换问题,也没有解决编辑距离作为相似度衡量标准时所存在
信息科技 ·445 ·
的明显缺陷9[)0
本文采用了改进的编辑距离算法用于句子的相似度计算,同时考虑了编辑操作代价和句子长度对相
似度的影响,提出了新的块交换操作,并根据词汇之间的语义相似度赋予
您可能关注的文档
最近下载
- 20171017_宁波新世界明楼项目汇报文件.pptx VIP
- (人教PEP版2024)英语五年级上册 Unit2 大单元教学设计.docx VIP
- 劳务合同模板2025.docx VIP
- 高性能探针卡生产线项目规划设计方案.docx
- 2024年秋新沪科版物理八年级上册 第五章大单元整体设计 教学课件.pptx VIP
- 数字赋能乡村治理的实践探索与优化路径——以晋南S村为例.pdf
- 《道路运输管理实务》第2版综合测试题.docx VIP
- 《人工智能导论》课件.ppt VIP
- 第一章 大学生心理健康教育.pdf VIP
- 《铁路线路养护与维修》课件全套 模块1、2 基础知识;普速铁路线路工务作业.pptx
文档评论(0)