网站大量收购独家精品文档,联系QQ:2885784924

基于词向量的规范词与非规范词的挖掘(最终版).doc

基于词向量的规范词与非规范词的挖掘(最终版).doc

  1. 1、本文档共63页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分类号 密 级 U D C 编 号 10486 硕 士 专 业 学 位 论 文 基于词向量的规范词与非规范词 关系挖掘 研究生姓名 : 汪明阔 学号 : 2014282110172 指导教师姓名、职称 : 姬东鸿 教授 专业类别(领域) : 计算机技术 二〇一六年五月 Mining Relation between Formal and Informal Words based on Word Embedding Name : Mingkuo Wang Student ID : 2014282110172 Director : Prof. Donghong Ji Major : Computer Technique 论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本声明的法律结果由本人承担。 学位论文作者(签名): 年 月 日 摘 要 随着社交网络的快速发展,用户每天在互联网上产生了大规模的数据,这些数据无疑蕴含着极大的价值,比如可以基于这些数据做用户推荐、用户情感分析以及大数据预测疾病等等。然而在应用自然语言处理相关算法对这些数据进行处理的时候,经常会遇到一个问题,即未登录词问题(Out-of-Vocabulary)。未登录词问题对诸多自然语言处理算法都有不利的影响,比如机器翻译、情感分析等。非规范词语是属于未登录词中的一种,如果能够将非规范词语进行规范化,无疑会大大提高自然语言处理相关算法的性能和效果。一般意义上,非规范词是规范词的不规则的形式,一个非规范词一般对应一个规范词且两者具有相同的语义。 基于以上的认识,本文提出了一种基于多语义词向量的规范词与非规范词挖掘模型,该模型分为三个部分,分别为多语义词向量模型的训练、基于规则的候选词对过滤以及基于支持向量机的分类算法。其中,多语义词向量模型的目的是学习出词语的多个语义表达,比如“稀饭”可以学习出两个语义表达,一种是常规的食物“稀饭”,另一种则对应为“喜欢”的非规范表达。训练的结果将具有相同语义的词语聚在同一个类别中,由于聚类的结果中包含大量的噪声数据,因此又设计了基于规则的过滤器对词对进行过滤,得到候选的词对,最后再使用支持向量机算法对候选词对进行分类处理,得到最终的规范词与非规范词词对。 本实验将使用两种方式来评估实验结果。一种是直接通过人工标注数据来评估,另一种是将实验产生的规范词与非规范词词对应用于具体的文本规范化任务中,实验结果表明不论是哪一种评估方式,通过本实验产生的规范词与非规范词词对都取得了很好的实验效果。 关键词:多语义,词向量,规范词,非规范词,未登录词 Abstract With the rapid development of social network, internet users produce large amount of data, which undoubtedly contains great value. For example, people can use these data to build a recommendation system, do emotional analysis or predict the disease’s trends.However, when applied natural language processing algorithm to these data, people often encountered with a problem called Out-of-Vocabulary. The problem of Out-of-Vocabulary has an adverse effect on many natural language processing algorithm, such as machine translation, sentiment analysis and so on.Informal words is a kind of Out-of-Vocabulary, if we can convert informal word to its formal format, it will certainly helpful for improving the

文档评论(0)

502992 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档