- 1、本文档共54页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
汉英平行语料库中名词短语对齐算法的研究
摘要
随着计算机和互联网的发展,在自然语言处理领域,以双语 (或多语)平
行语料库为基础的应用日益增多。除机器翻译方面的应用之外,平行语料库的建
设对于双语词典编纂、词义消岐和跨语言信息检索也具有重要价值。
在平行语料库的加工中,研究不同级别的对齐技术是一个核心课题。平行
语料的对齐不仅是通过平行语料库获取一些语言知识的必要前提,也是基于实例
的机器翻译中实例库构建不可缺少的关键环节。
本文以平行语料库及其对齐技术在基于实例的机器翻译和机器辅助翻译中
的应用为背景,讨论了 《大规模汉英平行语料库》的建设,包括语料的采集、编
码、句子对齐和语料库索引等问题。然后介绍了使用规则和统计相结合的方法进
行汉英名词短语对齐的研究。对齐算法利用英语的句法分析器进行英语名词短语
识别,采用句法模式规则过滤汉语名词短语候选集,最后通过基于共现频率的相
似度计算来选取最佳配对。算法有效地克服了单纯利用规则和双语词典的方法的
一些不足,提高了准确率。
关键词:平行语料库 对齐 名词短语对齐
汉英平行语料库中名词短语对齐算法的研究
Abstract
WiththedevelopmentofcomputersandtheInternet,theuseofbilingual
(multilingual)parallelcorpushasbecomeanimportantissueinthefieldofNatural
LanguageProcessing.Parallelcorpushasvaluableapplicationinmachinetranslation,
bilingualdictionarycompilation,wordsensedisambiguationandCross-Lingual
InformationRetrieval.
Intheexploitureofparallelcorpus,theresearchofalignmentatdifferentlevels
isanessentialtopic.Inordertoextractlinguisticknowledgerfomparallelcorpus,itis
necessarytoalignthem first.Alignmentisalsoanimportantphasebefore
Example-BasedMachineTranslation(EBMT)canmakeuseofparallelcorpus.
Thisthesisfirstlyintroducestheapplicationofbilingualcorpusandalignmentin
Machine(-Aided)Translation.TheconstructionofLarge-ScaleChinese-English
ParallelCorpusisdiscussed,includingresourcecollecting,corpusencoding,sentence
alignmentandconcordance.Thenthenounphrasealignmentalgorithmcombiningthe
useofrulesandstatisticsisdiscussed.ThealgorithmusesanEnglishparserto
identifyEnglishnounphrases,andasetofsyntacticpatternstofilteroutinvalid
candidatesofChinesetranslationcorrespondences.Finallythebestcandidateis
selectedastheChinesetranslationoftheEnglishnounphrasebysimilaritymeasures
basedonco-occurrence.Thismethodattackstheweaknessoftraditionalpure
rule-basedapproachesusingbilingualdictionaryandtheaccuraterateishigher.
Keywords:para
文档评论(0)