基于词频学习和动态词频更新的藏文自动分词系统设计-计算机应用与软件.PDFVIP

  • 1
  • 0
  • 约1.79万字
  • 约 4页
  • 2019-02-25 发布于天津
  • 举报

基于词频学习和动态词频更新的藏文自动分词系统设计-计算机应用与软件.PDF

第31卷第5期    计算机应用与软件 Vol31No.5 4 2014年5月   ComputerApplicationsandSoftware May201 基于词频学习和动态词频更新的藏文自动分词系统设计 项 炜 金 澎 (乐山师范学院智能信息处理及应用实验室 四川乐山614000) (乐山师范学院计算机科学学院 四川乐山614000) 摘 要  藏文自动分词问题是藏文自然语言处理的基本问题之一。针对藏文自动分词中的重点难点,例如:格助词的识别、歧义 切分、未登录词识别技术设计一个新的藏文自动分词系统。该系统采用动态词频更新和基于上下文词频的歧义处理和未登录词识 别技术。在歧义字段分词准确性、未登录词识别率和分词速度上,该系统具有较优的性能。 关键词  藏文自动分词 自然语言处理 格助词 动态词频更新 歧义处理 未登录词识别 中图分类号 TP391.1    文献标识码 A    DOI:10.3969/j.issn.1000386x.2014.05.027 DESIGNOFAUTOMATICTIBETANWORDSEGMENTATIONSYSTEMBASEDONWORD FREQUENCYLEARNINGANDDYNAMICWORDFREQUENCYUPDATING XiangWei JinPeng (LaboratoryofIntelligentInformationProcessingandApplication,LeshanNormalUniversity,Leshan614000,Sichuan,China) (SchoolofComputerScience,LeshanNormalUniversity,Leshan614000,Sichuan,China) Abstract  AutomaticTibetanwordsegmentationisoneofthebasicproblemsinnaturallanguageprocessingofTibetan.Inthispaper,wedesign anewautomaticTibetanwordsegmentationsysteminlightofthekeysanddifficultiesinit,forexample:thetechnologiesofidentificationofcase auxiliaryword,theambiguitysegmentation,andtheunknownwordsrecognition.Thesystemusesthetechniquesofthedynamicwordfrequencyup dateandtheambiguitytreatmentandunknownwordsrecognitionwhicharebasedonthewordfrequencyofthecontext.Thepresentedsystemhas relativelyhighperformanceintermsoftherecognitionaccuracyofambiguities,therecognitionrateofunknownwordandthesegmentationspeed. Keywords  AutomaticTibetanwordsegmentation Naturallanguageprocessing Caseauxiliaryword Dynamicwordfrequencyupdate Ambiguitytreatment Unknownwordsrecognition 则库识别出格助词。经过格助词识别后,一个藏文句子被分为 0 引 言

文档评论(0)

1亿VIP精品文档

相关文档