- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
融合句法信息双语词对齐方法研究
融合句法信息双语词对齐方法研究
摘要:词对齐研究是多文种信息处理工作的一项不容忽略的基础性研究内容。通过针对中文和蒙古文词对齐研究中存在的形态和词序不对称以及支撑词对齐研究的对齐语料缺乏问题,开展融合语言信息的中蒙混合词对齐模型构建方法研究。利用产生式词对齐结果以及中蒙两种语言的语言信息作为潜特征,建立高质量的融合语言信息的中蒙混合词对齐模型。实验结果证明,该文提出方法对于利用可比语料抽取对齐语料是可行的。
关键词:句子对齐;短语翻译;中文短语
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2014)07-1519-05
自然语言信息处理技术的快速发展,加上互联网的广泛应用和硬件性能的高速提升,已经可以对更多的研究任务、更复杂的自然语言以及更大规模的数据进行分析与实践,尤其是为机器翻译(Machine Translation)的发展注入了新的活力。互译语言之间的词对齐(Word Alignment)研究作为机器翻译领域的重要研究内容,具有重要的学术意义和潜在的应用价值,是一项复杂而具有挑战性的工作。首先,对齐概念已经超过一般意义上的词与词之间的对齐关系,而将其研究范畴扩展到词与短语、短语与词以及短语与短语之间的对齐关系的确立问题,研究者认知受限和语言自身动态演变等因素使得其表述工作相当困难。其次,这个课题交叉于传统的语言学与计算语言学之间,需要有一定的语言学知识和计算语言学理论基础。随着自然语言信息处理技术的不断深入,词对齐的研究正在吸引着自然语言处理领域研究者们的强烈兴趣,促使越来越多的人关注词对齐质量的提高问题[1-4]。除了机器翻译以外,双语词典编纂、词义消歧、跨语言信息检索、语言教学等很多与双语处理相关的应用领域也都需要双语词汇间的对应关系[5,6]。词语对齐是包括蒙古文信息处理工作在内的诸多文种信息处理工作的一项不容忽略的基础性工作[7]。
1 基于可比语料的中蒙句对齐语料
随着网络资源的丰富及信息检索技术的发展,网络资源在双语平行语料的构建研究中也充分得到了体现,中文-蒙古文之间亦是如此。但是,目前可收集到的中文-蒙古文可???语料存在比较严重的噪声。在前期中文-蒙古文可比语料的建立过程中发现,从同一个网站上可以获取到的中蒙对照内容比较少,而通过蒙古文网页标题内容搜索到的相对应的中文网页内容又比较多,而这样获取到的中文-蒙古文双语对照的文本并不是完全对齐的,可能是片段对齐(Fragments Alignment)或是非连续对齐。如图1所示为从网上获取的中文-蒙古文可比语料以及可以获取得到的对齐资源(非划线部分都属于噪声)。对目前搜集到的蒙古文和中文对照的双语平行网页文本进行分析,发现60%以上的平行网页中存在蒙古文句子和中文句子间明显不平行的问题,即中文网页文本内容与蒙古文网页文本内容基本相似,但是从句子对齐角度来看,中文网页文本中的句子不与蒙古文网页文本句子完全对齐,存在参差对齐的问题。因此,如何利用非平行的可比语料,抽取较高质量的中-蒙对齐语料是首要解决的关键问题。
2 融合句法信息的双语词对齐
2.1 蒙古文复合词识别及标注方法
考虑到中文和蒙古文之间的词对齐存在的“多对多”的情况,蒙古文复合词是所要引入语言信息特征中的重要特征之一[8]。从语言学角度考虑,复合词(compound words)是指表达一定语义的,搭配较为紧密的,由多个词语构成的语法单位,包括短语、固定搭配、习惯用语以及由多词构成的命名实体等。如(中华人民共和国)。在词对齐过程中,复合词是一个整体,表达一个完整的意思,应以整体为一个单元看待。
①蒙古文复合词的定义
如果一个词单元A与另外一个词单元B明显相关,或假设词单元A经常出现在词单元B的上下文中,那么(A,B)为复合词。复合词的长度不仅限制在2个词以内,对一些命名实体建立了专门的命名实体库,通过后期利用Web资源可以扩充。
②利用Web蒙古文单语资源,采用统计关联度计算方法抽取相应的复合词
从表2实验结果可以看出,CRFs方法得到的准确率和召回率都是最高的,其次是MEM模型。尽管PSMT方法得到的准确率比LLR方法高,但是它得到的召回率却比LLR方法低。具体分析来看,MEM和CRFs模型都属于判别式模型,而PSMT和LLR是基于产生式方法的,说明面对语料稀缺的中蒙对齐问题,判别式模型较产生式模型可以取得更高的结果。另外,PSMT方法之所以得到最低的召回率值的原因可能是因为LLR统计量的方法、CRFs模型以及MSM方法首先都需要对短语进行切分,对没有意义的短语进行了过滤,而PSMT方法并没有这一步的处理。
4 结论
本文介绍了一种利用中蒙网页可比语料抽取对齐单元的方法。具体地,
文档评论(0)