多级索引的藏语分词词典设计.pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多级索引的藏语分词词典设计

第 29卷 计算机应用 Vo l. 29 2009年 6 月   Jou rnal of Compu ter App lication s   June 2009 文章编号 : 100 1 - 9081 (2009) S1 - 0178 - 03 多级索引的藏语分词词典设计 姚  徐 1, 2 ,郭淑妮 1, 2 ,李永宏 1, 2 ,于洪志1, 2 ( 1. 西北民族大学 中国民族信息技术研究院 ,兰州 730030;  2. 西北民族大学 中国民族语言文字信息技术重点实验室 ,兰州 730030) (friendxiaoyao@ 163. com ) 摘  要 :藏语分词词典是藏语自动分词系统的重要基础 ,词典规模大小和算法设计的优劣直接影响着分词的效 率 。本项 目首先收集了多部藏语字 、词典的所有词条及藏语标点符号 ,形成了约 10 万词条的大型藏语分词词库 ;根据 藏字不同长度的特点 ,建立了藏语特有的多级索引分词词典机制 ,分析设计藏语整词二分法进行藏语分词 。实验结 果表明该藏语分词词典具有结构简单 ,分词速度快和查询性能高等优点 。 关键词 :藏语分词 ;分词词典 ;藏语整词二分法 ;多级索引 中图分类号 : TP39 1  文献标志码 : A D esign of T ibetan word segm en ta tion d ictionary w ith m ultilevel index 1, 2 1, 2 1, 2 1, 2 YAO Xu , GUO Shun i , L I Yonghong , YU Hongzh i (1. Ch ina M inorities Inf orm a tion Technology Institu te, N orthw est Un iversity f or N a tiona lities, L anzhou Gansu 730030, Ch ina; 2. S ta te key L abora tory of N a tiona l L ang uag es Inf orm a tion Technology of Ch ina, N orthw est Un iversity f or N a tiona lities, L anzhou Gansu 730030, Ch ina) A b stract: Tibetan word segm en tation dictionary is the vital basis of the system of Tibetan au tom atic word segm entation, w ith the scale of the dictionary and the arithm etic de sign directly related to the efficiency of the word segm entation. Th is p roject firstly co llected all the Tibetan vocabu lary en trie s and punctuation s from m any dictionarie s, and form an enormou s Tibetan word storeroom w ith about 100 000 vocabu lar

文档评论(0)

f8r9t5c + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8000054077000003

1亿VIP精品文档

相关文档