- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
基于RegNet和投票算法的词义消歧研究
摘要
词义消歧是自然语言处理领域中一个长期存在的重要问题。歧义词在不同
的语境中往往有不同的含义,词义消歧是根据歧义词汇的上下文来确定其语义
类别的过程。词义消歧对机器翻译、语音识别、文本分类、搜索引擎等方面都
有很大的影响。
为了解决消歧准确率较低的问题,本文研究了消歧知识和卷积神经网络,
提出了以RegNet模型为主体的词义消歧方法来确定歧义词的真实语义,并引入
注意力机制、空洞卷积和投票算法来提高消歧准确率。采用SemEval-2007:
Task#5的训练语料优化词义消歧模型,利用SemEval-2007:Task#5的测试语料
测试词义消歧模型的性能。本文主要对以下四个部分进行了详细的研究:
(1)研究词义消歧的背景、意义和应用场景,以及研究国内外词义消歧领
域的现状。学习自然语言处理领域的知识,介绍词义消歧的基本方法。研究训
练语料和测试语料的预处理过程,包括词性标注和语义类标注。
(2)构建基于RegNet词义消歧模型。将歧义词左右两侧邻接词汇单元的
词形、词性和语义类作为消歧特征,采用Word2Vec工具向量化词形、词性和语
义类后构建特征矩阵,使用softmax分类器进行语义分类。
(3)以RegNet为基础,提出融合注意力机制和空洞卷积的RegNet词义消
歧模型。介绍注意力机制和空洞卷积,注意力机制可以优化消歧特征,空洞卷
积可以得到更大的感受野。
(4)提出基于注意力机制和空洞卷积的RegNet以及投票算法词义消歧模
型,完成词义消歧任务。利用训练语料不断优化词义消歧模型,并采用测试语
料对模型的消歧性能进行测试。
关键词词义消歧;RegNet;注意力机制;空洞卷积;投票算法
-I-
ResearchonWordSenseDisambiguationBasedon
RegNetandVotingalgorithm
Abstract
Wordsensedisambiguation(WSD)isachronicandimportantprobleminfield
ofnaturallanguageprocessing.Ambiguouswordsoftenhavedifferentmeaningsin
differentcontexts.WSDistheprocessofdeterminingsemanticcategoryof
ambiguouswordbasedonitscontext.Ithasagreatimpactonmachinetranslation,
speechrecognition,textclassification,searchenginesandsoon.
InordertosolvetheproblemoflowaccuracyinWSD,thisdissertationstudies
disambiguationknowledgeandconvolutionneuralnetwork.AWSDmethodbased
onRegNetisproposedtodeterminetruesemanticofambiguousword.Attention
mechanism,dilatedconvolutionandvotingalgorithmareintroducedtoimprove
disambiguationaccuracy.TrainingcorpusofSemEval-2007:Task#5isusedto
optimizeWSDmodel,andtestcorpusofSemEval-2007:Task#5
文档评论(0)