基于感知机模型藏文命名实体识别.pdfVIP

  • 30
  • 0
  • 约1.57万字
  • 约 5页
  • 2018-08-19 发布于天津
  • 举报
基于感知机模型藏文命名实体识别

ComputerEngineeringandApplications计算机工程与应用 基于感知机模型藏文命名实体识别 华却才让 ,姜文斌 ,赵海兴 ,刘 群 HUAQuecairang ,JIANGWenbin3,ZHAOHaixing,LIUQun 1.陕西师范大学 计算机学院,西安 710062 2.青海师范大学 藏文信息研究中心,西宁 810008 3冲 国科学院 计算技术研究所 ,北京 100190 1.ComputerScienceSchoolofShaanxiNormalUniversity,Xi’an710062,China 2.TibetanInfomrationResearchCenter,QinghaiNomralUniversity,Xining810008.China 3.InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100190,China HUAQuecairang,JIANGWenbin,ZHAOHaixing,eta1.Tibetannameentityrecognitionwithperceptronmodel。 ComputerEngineeringandApplications,2014,50(15):172-176. Abstract:TibetannameentityrecognitionisessentialforTibetantextsegmentationandthepartofspeechtagging.This paperproposesasyllablefeautresperceptrontrainingmodeltoidentifyTibetannameentitywithdetailanalysisNE structure urleandwordsegmentationambiguity.ItfocusesonTibetansyllablesegmentation,trainingfeaturestemplatesofinner andboundaryofNE,trainingmodelandNEclassificationmethod.TheF-scoreofNEidentificationis86.03% ofrthetest set.and10.5% higherthantheTibetansegmentationbaselinesystem. Keywords:Tibetansyllable;NameEntity(NE);TibetanNE;perceptronmodel 摘 要:藏文命名实体识别是藏文分词和标注系统中必须要解决的问题。通过对命名实体构词规律及分词歧义进 行分析,提 出基于音节特征感知机训练模型的藏文命名实体识别方案。重点研究了利用藏文紧缩格识别音节的方 法,命名实体 内部和边界音节的模型训练特征模板,训练模型,以及命名实体分类识别方法。提出的藏文命名实体 识别方法在测试集上获得86.03%的F值,相对基于分词的基线系统高出l0.5%个点。 关键词:藏文音节;命名实体;藏文命名实体;感知机模型 文献标志码:A 中图分类号:TP391 doi:10.3778j/.issn.1002—8331.1308.0196 藏文命名实体识别(N帅edEntityRecognition,NER) 导致与音节的后置字符及又后置字符间存在歧义 ;第三 是确定藏文文本 中人名、地名、机构名和数词等名词短 动词在时态上具有屈折变化。这些复杂性使得藏文分 语的过程 。它是藏文分词、机器翻译、跨语言检索和文 词已成为藏文信息处理中的一个难题 1,而藏文命名实 档摘要等自然语言处理中应用的关键技术,也是 目前藏 体的识别更为困难 ,也是必须要解决的问题。 文 自然语言处理 中亟待解决的问题。藏文作为典型的 藏文中命名实体类似中文命名实体没有区分标记 , 逻辑格语法体系的复杂拼音文字之一n】,首先句子中最 其基本单元一个音节类似中文的一个字,没有英文中的 基本的单元为音节 (字),一个或多个音节构成词语 ,词 大小写特征,它们和非命名实体没有形态上的区别。大 与词之问没有明显标记 ;其次 ,具有严格的格词接续规

文档评论(0)

1亿VIP精品文档

相关文档