- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于改进编辑距离的中文相似句子检索①
车万翔② 刘挺 秦兵 李生
(哈尔滨工业大学计算机学院信息检索研究室 哈尔滨 150001 )
{car, tliu}@
摘要 中文相似句子检索的方法在基于实例的机器翻译等中文信息处理领域,具有非常广泛
的应用背景。本文提出的基于改进编辑距离的中文相似句子检索方法,在使用信息检索技术
提高检索效率的同时,以普通编辑距离算法为基础,加入了词汇的语义信息,使之更加符合
中文句子相似度计算的要求。改进编辑距离与单纯基于语义辞典计算句子相似度的方法相
比,具有便于扩展,准确率高等优点。在基于大规模双语句对检索的英文辅助写作系统中使
用该算法进行中文句子检索,最后获得了 81.33%的查准率和 95.31%的查全率。
关键词:改进编辑距离、相似句子检索、英文辅助写作
义词典的方法,可以很好的解决这一问题,
0 引言 但是单纯的使用语义词典的方法,并没有考
虑到句子内部的结构和词语之间的相互作
用关系,准确率不高。
相似句子检索,在自然语言处理领域具
编辑距离通常被用于句子的快速模糊
有非常广泛的应用背景,如信息过滤技术中
匹配领域,但是其规定的编辑操作不够灵
的句子模糊匹配,基于实例机器翻译的原语
活,也没有考虑词语的同义替换。最后基于
言检索,自动问答技术中常问问题集的检索
统计的方法,需要构造大量的训练语料,工
以及问题与答案的匹配,基于双语语料库的
作量是十分巨大的,而且还存在着数据稀疏
英文辅助写作等。因此长期以来,相似句子
的问题。
检索问题,一直为人们所热衷。
我们所提出的改进编辑距离的方法,吸
目前句子相似度计算一般分为三个等
取了基于语义词典的方法和编辑距离方法
级[1],分别为语法相似度、语义相似度和语
的优点,同时克服了它们的一些不足。与普
用相似度。计算句子之间的语用相似度,一
通编辑距离算法不同,改进编辑距离方法同
直是人们的目标,但是其计算具有相当的难 时使用了HowNet[6] [7]
和 《同义词词林》 两种
度,效果还不尽如人意。而在一般的应用中,
语义资源,计算词汇之间的语义距离,同时
只计算句子的语义相似度就能够达到我们
赋予不同编辑操作不同的权重,在不用经过
的需要。句子的语义相似,指的是两个句子
词义消歧和句法分析的情况下,兼顾了词汇
之间结构类似并且词汇使用同义或者近义
的顺序和语义等信息,最终获得了 81.33%
文档评论(0)