基于神经网络的藏语分词与词性标注研究.pdf

基于神经网络的藏语分词与词性标注研究.pdf

  1. 1、本文档共64页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于神经网络的藏语分词与词性标注研究 摘要 藏语信息技术的发展对藏语的科学研究,学科教育,以及藏族百姓生活都有 着十分重要的作用和影响。随着信息技术多年的发展与进步,藏语信息技术中的 语言学研究也取得了一定的成果。作为藏语信息技术语言学研究的基础和关键任 务,藏语分词和词性标注对后续句法分析,文本分类,情感分类等自然语言处理 任务有着直接的影响。使用传统的统计模型完成藏语分词和词性标注虽然可以取 得较好的效果,但是人工构建特征会影响其在大规模数据集中的普适性。随着神 经网络技术的发展,运用神经网络算法在自然语言处理领域进行研究已成为趋 势。神经网络算法以其具有的信息分布存储、并行处理以及自学习能力等优点在 自动提取序列特征,训练拟合大规模数据,以及充分利用GPU 等硬件性能方面 有着很强的优势。 本文基于神经网络相关的算法,针对藏语分词和词性标注完成了以下工作: 第一,在双向长短期记忆网络模型中引入卷积神经网络(Convolutional Neural Networks ,CNN )和膨胀卷积迭代(Iterated Dilated CNN ,IDCNN )算法对藏语 进行分词并取得了良好的效果。通过不同算法框架对比验证了IDCNN 作为特征 提取器相比CNN 可以提取到更完整的序列特征信息以提升模型的分词效果。 第二,针对藏语词性标注问题,在分词的基础之上,按照 《信息处理用藏语 词类标注集》的91 类词性细分类标准对藏语数据集进行训练测试,并验证了神 经网络算法在藏语词性标注任务中的有效性。 第三,针对异步分词和词性标注所产生的错误累加问题,设计并实现了基于 神经网络算法的一体化藏语分词标注框架。实验结果表明,一体化框架可以有效 地提高藏语分词和词性标注的效果。 综上所述,基于神经网络算法的藏语分词和词性标注模型能够自动提取序列 特征,从而有效地实现藏语分词和词性标注,本研究将对后续藏语处理任务的实 现产生积极的影响。 关键词:藏语,分词,词性标注,神经网络,一体化。 I Research on word segmentation and part-of-speech of Tibetan on neural network Abstract The development of Tibetan information technology has played an essential role in scientific research, education, and even the daily life of Tibetan people. After years of progress in information technology, linguistic analysis based on Tibetan information technology has also obtained many decent results. As the basis and the critical points of Tibetan IT linguistic research, word segmentation and part-of-speech tagging have direct impacts on several Tibetan natural language processing tasks such as syntax analysis, text classification, and sentiment. However, while the use of traditional statistical models in Tibetan word segmentation and part-of-speech tagging can achieve specific goals, the process of artificial construction of

文档评论(0)

136****6583 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档