- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
藏语单句相似度计算模型研究.doc
藏语单句相似度计算模型研究
【摘 要】句子相似度计算在藏文信言处理的各个领域中都是很重要的。本文从藏语句子的多个角度分析句子的相似性,利用藏语句子的特征结构,结合词形、词序、相似单元夹角和词性来计算藏语句子的相似度,从几个方面最终计算藏语句子的相似度。实验结果表明,该计算方法合理、简便、可行。
【关键词】词性 词序 藏语句子 自然语言处理
1 引言
在自然语言处理领域,尤其在藏文信息处理中,藏语句子相似度的计算是一项基础性较强的研究课题。长期以来一直是人们研究的一个热点和难点,直接决定着藏语信息处理领域的发展。如:基于实例的机器翻译、基于语料库的藏语教学系统、自动问答系统、藏文信息检索等研究中,藏语单句的基本句型研究对计算机语句处理具有重要的理论意义,使计算机对藏语句法分析的重要基础和前提。之前,对藏语句子相似度有些研究,安见才让老师写的《藏语句子相似度算法的研究》提出了采用散列单词倒排索引和基于句长相似度粗选的算法。于洪志老师在《基于藏语句多特征融合的主观题自动评分算法》中提出了一种藏语句多特征融合的主观题自动评分算法,构建了关键词词形相似度计算模型、词序相似度计算模型、句子长度相似度计算模型和句子语义相似度计算模型。
随着藏语语料库语言学的兴起,藏汉语语料库的建立也是一个基础研究项目,给予我们研究藏文信息处理领域的一个好的平台。其基本原理是:当输入一个待翻译的藏语句子时,系统自动从藏汉双语实例库中搜索到最相似的句子,再以该句子的译文为查询对象,查找出与藏语句子相对应的汉语句子。句子相似度的研究是很重要的一个研究项目,其直接影响到信息的检索和翻译的正确性等很多领域。
2 句子相似度模型
2.1 词形相似度
藏语句子的构成是以动词为核心,其语序常态是“ 施事― 受事― 动作” 的格局。词形相似度是比较输入句子和查询句子相似单元的长度。相似单元为输入句子与查询句子中的每个单元相匹配,寻找到相同的匹配单元。即SameWC(A和B)表示句子A和B中相似单元的长度,Len(A),Len(B)为句子A,B的长度,即长度是一个句子中相同的词和标点符号,为了方便于计算也可以忽略标点符号。当相同单元在某个句子中出现的次数较多时,以出现次数少的句子来计算。
例1:
WordSim(A和B)表示句子A和B的词形相似度,由公式(1)来表示:
WordSim(A和B)=2×SameWC(A和B)/len(A)+len(B).(0≤WordSim(A和B)≤1) (1)
该两个句子的相似度值SameWC(A和B)=2×5/(6+7)=0.769。
2.2 词序相似度
词序相似度是两个句子中含有相同词在位置关系上的相似程度。要考虑到一个句子的有序度和无序度。Match(A,B)表示在句子A和B当中都出现并且都只出现过一次的相似单元的集合,用Order(A,B)表示句子A中有序的相似单元,句子B中所确定的相似单元被打乱的程度,就是无序度,用Entropy(A,B)表示。句子A,B的词序相似度有公式(2)来表示:
,在句子A中,各相似单元排列顺序的相邻关系为,2-3,3-4,4-5,5-6,6-7,在这个句子中没有被打乱的相邻关系,即Entropy(A,B)=0,Order(A,B)表示句子B中各相邻最大匹配顶点的有序度。在句子B中有序项为,23、34、45、56、67,Order(A,B)=5.
2.3 相似单元夹角相似度
计算句子相似度时,有些句子词形、词序、句子长度方面都相同,在输人句子中位置相邻的两个相似单元在实例句子中被非相似单元的匹配单元间隔开来(排列顺序不变),此中间隔成为相似单元夹角。AngleNum(A,B)为相似单元夹角的个数,AngleSize(A,B)为所有夹角中间匹配单元的个数。由公式(3)为:
比较规则:两个藏语句子的词类序列,结合词类的权值信息,对两个句子从词的最左边起始位置开始,依次进行比较,如果词性相同,就匹配,得到最优的匹配结果,即最后的结果使两个待比较句子的词类序列相似度值最大。eword表示词性匹配的总数目,psmatchcount表示两个比较的句子中分词较少的句子的词个数,如果其中有一个句子的所有词都比较完了,则整个比较就结束。
上面2个句子表达的意思完全不同,其中的词汇也相异但是句法结构是一致的。所以这个两个句子结构相似度的值为1.假如两个句子的结构完全不相同,句子相似度的值等于0。
2.5 句子相似度
综合考虑词形、词序、相似单元夹角相似度、词性相似度的计算,给出述下多特征的藏语句子的综合相似度计算模型。
Zsim(A,B)= WordSim(A,B)+ OrderSim(A
您可能关注的文档
- 花椒的分量有多重?.doc
- 花椒育苗技术要点.doc
- 花生Clp家族成员的筛选、聚类和盐胁迫响应分析.doc
- 花生单粒精播高产栽培技术特点及关键技术.doc
- 花生施用大量元素水溶肥效果试验研究.doc
- 花生田间管理技术.doc
- 花生综合利用研究进展.doc
- 花生高产示范区高产综合配套栽培技术.doc
- 花腰彝刺绣元素在现代室内环境设计中的应用.doc
- 花花世界花师奶 高尔夫嘉旅280TSI vs BMW 220i旅行车.doc
- 2025年江西省时事政治考试试卷带解析必背(有一套).docx
- 2025年河南省公务员考试时事政治考试试卷带解析附完整答案【全优】.docx
- 2025年河南省公务员考试时事政治考试试卷带解析及完整答案【各地真题】.docx
- 2025年辽宁省公务员考试时事政治考试试卷带解析附完整答案【夺冠】.docx
- 2025年河南省时事政治考试试卷带解析含答案【预热题】.docx
- 江西昌河航空工业有限公司校园招聘模拟试题附带答案详解及参考答案1套.docx
- 2025年江西省时事政治考试试卷带解析必背(综合题).docx
- 2024年案件风险防控学习心得体会范例(4篇) .pdf
- 2025年江西省时事政治考试试卷带解析(全国通用).docx
- 2024年竣工验收管理制度(三篇) .pdf
文档评论(0)