基于格助词和接续特征的藏文自动分词方案-中国语言文字网.docVIP

  • 8
  • 0
  • 约 8页
  • 2017-02-01 发布于天津
  • 举报

基于格助词和接续特征的藏文自动分词方案-中国语言文字网.doc

基于格助词和接续特征的藏文自动分词方案-中国语言文字网

基于格助词和接续特征的藏文自动分词方案* 陈玉忠 李保利 俞士汶 兰措吉1 (北京大学计算语言研究所 北京 100871) (青海师范大学 西宁 810008)1 摘要:本文结合藏文各类形态特征,首次提出了一种基于格助词和接续特征(BCCF, Based on Case-auxiliary word and Continuous Feature)的书面藏文自动分词方案。其总体技术特点是:在格助词、接续特征、字性知识库以及词典支持下,进行逐级定位的确定性分词。初步测试表明:这一方案在发现和消除切分歧义、解决未登录词问题,进而在提高藏文分词精度方面具有很高的实用价值。 关键词:格助词;接续特征;藏文分词 1. 引言 随着对语言信息处理研究工作的不断深入,藏文信息处理技术也从文字处理逐步转向语言信息处理。与汉语、日语等语种的信息处理一样,藏文自动分词是藏文信息处理中一项不可缺少的基础性工作。书面藏文分词问题解决的好坏,直接制约着藏文词频统计工程、藏外机器翻译等高层藏文信息处理技术的进一步发展。因而,设计并实现实用化的书面藏文自动分词系统已势在必行。同时,结合藏文特点开展的分词研究,反过来对其他语言的分词研究也具有非常重要的参考价值。 藏文分词研究目前是一片空白,借鉴亲属语言汉语分词研究的已有成果和成功经验,无疑对把握分词问题的本质,针对性地开展藏文分词研究有重要的指导意义。迄今为

文档评论(0)

1亿VIP精品文档

相关文档