蒙古语词法分析的有向图模型研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
蒙古语词法分析的有向图模型 摘 要:我们为蒙古语词法分析建立了一种生成式的概率统计模型。该模型将蒙古语语句的词法分析结果描述为有向图结构,图中节点表示分析结果中的词干、词缀及其相应标注,而边则表示节点之间的转移或生成关系。特别地,在本工作中我们刻画了词干到词干转移概率、词缀到词缀转移概率、词干到词缀生成概率、相应的标注之间的三种转移或生成概率,以及词干或词缀到相应标注相互生成概率。以内蒙古大学开发的20万词规模的三级标注人工语料库为训练数据,该模型取得了词级切分正确率95.1%,词级联合切分与标注正确率93%的成绩。 关键词:蒙古语 词法分析 词语切分 词性标注 词干提取 有向图 Directed Graph Model for Mongolian Lexical Analysis Abstract: We propose a generative statistical model for Mongolian lexical analysis. This model describes the lexical analysis result as a directed graph, where the nodes represent the stems, affixes and their tags, while the edges represent the transition or generation relationships between nodes. Especially in this work, we adopt three kinds of transition or generation probabilities: a) probabilities of stem-stem transition, affix-affix transition and stem-affix generation; b) the transition or generation probabilities between the corresponding tags; and c) the generation probabilities between stems or affixes and their tags. Using the 3rd-level annotated corpus with about 200,000 words as the training data, this model achieves a word-level segmentation accuracy of 95.1%, and a word-level joint segmentation and tagging accuracy of 93%. Key words: Mongolian; Lexical Analysis; Segmentation; POS Tagging; Stemming; Directed Graph 1 引言 词法分析对汉语和许多民族语言来说,是大多数自然语言处理任务的基础。汉语的词形较为简单,当前的词法分析已经做到实际可用的水平[1, 2, 3, 4],而对于形态复杂的民族语言如蒙古语和维吾尔语,词法分析的准确率仍有较大的提升空间[5, 6, 7, 8, 9, 10, 11]。在民族交流与融合需求日益迫切的现阶段,机器翻译技术的重要作用越发凸显。民族语言词法分析作为机器翻译的必备前提,需要得到研究者更多的关注。 与汉语的字符顺次拼接的构词方式相比,蒙古语和维吾尔语等形态丰富的语言构词规律更加复杂。这类语言的词语通常由词干和若干起修饰作用词缀组成树状结构,词法分析的任务就是解析出词语的词干和词缀构成,并且标定好它们的类别标注。这样一来,在汉语上效果良好的序列标注模型[12, 13, 14]在这里变得不太适用,而研究者往往直接借用这些现成的线性序列模型,同时将任务限定为粗切分或标注[7, 8, 9, 10],这使得系统的理论价值和实用性大打折扣。另一方面,传统的基于规则的词法分析模式需要专门的语言学人才,往往耗费大量的精力调试搭建后,而准确率和稳定性又不尽人意。因此,我们有必要构造更为恰当的统计模型,以尽可能准确地描述形态丰富语言的构词规律,从而快速搭建高性能的词法分析系统。 我们为蒙古语词法分析建立了一种生成式的概率统计模型。该模型将蒙古语语句的词法分析结果描述为有向图结构,图中节点表示分析结果中的词干、词缀及其相应标注,而边则表示节点之间的转移或生成关系,它们刻画了词干、词缀及其相应标注连接成词的规律。生成式概率统计模型为这些转移或生成关系赋以合适的概率形式,词法分析的过程就是寻找其所有概率

文档评论(0)

qqbbc123456 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档