- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
哈尔滨工业大学硕士学位论文
摘要
双语词典是机器翻译技术中的一个基础资源,其中记录着两种不同语言之
间互为翻译的词语对。无监督的双语词典抽取,其目的是在没有任何双语平行
资源的情况下,只使用不同语言的单语语料获取双语词典和跨语言的词表示。
这为解决一些自然语言处理方法在低资源语言上效果不佳的问题提供了非常
重要的基础,也为实现跨语言自然语言处理提供了一条有效的途径。词向量模
型会同时输出两个对偶的词向量。然而,目前的无监督双语词典抽取方法都只
使用了其中的输入向量,却完全忽视了输出向量。针对于此,本文提出了一种基
于对偶词向量的无监督双语词典抽取方法,然后提出了一种将其与预训练语言
模型相结合的方法,最后还探索了大语言模型在无监督双语词典抽取的应用。
本文提出了对偶词向量在跨语言情况下的等差异性,其反映了两种语言对
应的输入向量和输出向量可以通过同样的一个正交变换连接起来。基于此,本
文提出了一种充分利用等差异性的无监督双语词典抽取模型。模型通过同一个
正交变换获得对偶词向量分别对应的两个跨语言空间,然后在两个跨语言空间
中检索具有一致性的词典,这使得模型的自学习迭代过程更容易收敛。实验证
明,基于对偶词向量的无监督双语词典抽取模型在远距离语言对上比现有最先
进的方法更加有效,同时也能保证在近距离语言对上可比的性能。
本文还提出了一种利用交叉编码器结合对偶词向量与预训练语言模型的
方法。交叉编码器的训练数据来自基于对偶词向量的模型给出的跨语言词向量
及其对应的相似度分数,该方法在检索过程中使用基于对偶词向量的模型先进
行检索,然后利用其和交叉编码器分别给出的相似度分数对检索结果进行重新
排序。实验证明,对偶词向量和预训练语言模型中蕴含的信息是互补的,基于对
偶词向量的模型为微调和结合预训练语言模型提供了更好的基础。另外,本文还
通过挖掘大语言模型的跨语言信息作为上下文示例进行无监督双语词典抽取。
示例集合来自于正向和反向翻译一致的翻译对,这种方法在一些语言对上的性
能甚至超过了有监督的方法。
关键词:无监督双语词典抽取;对偶词向量;交叉编码器;大语言模型
-I-
哈尔滨工业大学硕士学位论文
Abstract
Bilinguallexiconisafundamentalresourceinmachinetranslationtechnology,which
recordswordpairsthataretranslatedintoeachotherbetweentwodifferentlanguages.
Unsupervisedbilinguallexiconinductionaimsatobtainingbilinguallexiconsandcross-
lingualwordrepresentationsusingonlymonolingualcorpusofdifferentlanguageswith-
outanybilingualparallelresources.Thisprovidesaveryimportantbasisforsolvingthe
problemthatsomenaturallanguageprocessingmethodsdonotworkwellonlow-resource
languages,andalsoprovidesaneffectivewaytoachievecross-lingualnaturallanguage
processing.Thewordembeddingmodeloutputstwodualwordembeddingsatthesame
time.However,allthecurrentunsupervisedbilinguallexiconinductionmethodsonlyuse
theinputvectorofthem,withignoringtheoutput
文档评论(0)