一种词法分析与字标注分词结合的方法.pdf

一种词法分析与字标注分词结合的方法.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种词法分析与字标注分词结合的方法

ISSN1009-3044 E-mail: xsjl@ Computer Knowledge and Technology 电脑知识与技术 第8 卷第8 期 (2012 年3 月) Computer Knowledge and Technology 电脑知识与技术 Vol.8, No.8, March 2012. Tel:+86-551-5690963 5690964 一种词法分析与字标注分词结合的方法 黄小斌,余悦蒙 (厦门大学信息科学与技术学院,福建厦门361005) 摘要:提出了一种新的字位置信息标记,使用该标记可以实现字标注分词和词性分析的一体化。通过设计一套包含了词性信息的 字位置信息标记,在训练前对训练语料进行改造,将训练语料转化成用新标记标注的语料,然后根据转化的结果进行训练,并用训 练产生的隐马模型(HMM)对待分词字符串进行字标注,最后找出最大概率路径作为分词结果,该分词结果同时也包含了词法分析 的结果。该文将隐马模型中的viterbi 算法修改成N-viterbi 算法,采用N-viterbi 算法可以实现查找分词图中的前N 条最大概率路 径。实验表明,该模型可以较准确的完成分词操作,同时可以产生有一定引导作用的词法分析结果。 关键词:分词;词法分析;字标注;N-viterbi ;隐马模型;一体化 中图分类号:TP301 文献标识码:A 文章编号:1009-3044(2012)08-1814-04 AMethodtoDoLexicalAnalysiswhileWord-positionTagging HUANG Xiao-bin, YU Yue-meng (School of Information Science and Engineering, Xiamen University, Xiamen 361005, China) Abstract:A new kind of tags for the word-position tagging. word-position tagging and lexical analysis integration can be achieved using the new tags. the new kind of tags contains both the lexical information and the word-position information, before the training process, modify the trainning data using the new tags,then train the word segment model with the modified trainning data,after the trainning fin⁃ ished,use the model to do a word segment process on a sentence,then get the result from the model.the result will be both the word seg⁃ ment result and the lexical analysis result .This article also changed the viberti algorithm of HMM into N-viberti,which can find the top N results of a word segment graphy. Experiments show that through the model,we can get a good word segment result,and a lexical analysis result in the same time, though the accuracy is still relatively low . Keywords:word segmentation; lexical analysis; word-position tagging; N-viterbi; Hidd

文档评论(0)

sunshaoying + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档