民族语言版本Linux和办公套件研发所面临的问题.pptVIP

  • 1
  • 0
  • 约2.35千字
  • 约 19页
  • 2019-07-28 发布于天津
  • 举报

民族语言版本Linux和办公套件研发所面临的问题.ppt

报告人高璐报告人报告人姚徐报告人高璐报告人高璐报告人高璐报告人高璐报告人高璐报告人高璐报告人武光利日期姚徐藏语分词词典的建立与设计目录藏字特点藏语分词词库构成藏语分词词库结构报告人姚徐报告人姚徐藏字特点藏文是一种源于印度的辅音素文字是拼音文字以字为单位来描述世界的万事万物字与字之间以音节点分隔开例如藏文有个辅音字母个元音字母藏文字符构成藏文字既有横向拼写又有纵向拼写报告人姚徐分词单位什么叫着一个分词单位中国国家标准分词规范中指出分词单位是指信息处理中使用的具有确定的语义和语法功能的基本单位报告人

报告人:高璐 * 报告人: 报告人:姚徐 * 报告人:高璐 * 报告人:高璐 * 报告人:高璐 * 报告人:高璐 * 报告人:高璐 * 报告人:高璐 * 报告人:武光利 * 日期:* ——姚徐 藏语分词词典的建立与设计 目录 藏字特点 藏语分词词库构成 藏语分词词库结构 报告人:姚徐 * 报告人:姚徐 * 藏字特点 藏文是一种源于印度的辅音素文字,是拼音文字,以字为单位来描述世界的万事万物,字与字之间以音节点分隔开,例如 藏文有30个辅音字母、4个元音字母 藏文字符构成藏文字既有横向拼写又有纵向拼写 报告人:姚徐 * 分词单位 什么叫着一个分词单位? 中国国家标准“分词规范”中指出,分词单位是指信息处理中使用的、具有确定的语义和语法功能的基本单位 报告人:姚徐 * 词库规模 藏语分词词库需要多少词条适合?目前国内还没有一个统一的标准,也没有出现过比较全面的藏语词库以及通用词表 理论上讲:分词词库越大,分词准确率越高 报告人:姚徐 * 词库建设 收词原则:以藏语各大字词典的词条为分词单位(包括词语 、短语、习语) 收录范围:《藏汉大辞典》、《安多口语辞典》、《拉萨口语字典》、《格西曲扎藏文辞典》、《新编藏文字典》、《藏文同音字典》、《藏汉词典》、《佛学词典》、《藏语动词词典》以及《藏语文课本(小学12册、初中6册、高中6册)》 报告人:姚徐 * 词条总计:总达13万余条,去重后9万余藏语词条 覆盖范围:涵盖了几乎所有的藏语书面语和绝大部分口语 报告人:姚徐 * 一级索引库 藏语和汉语同属一个语系——汉藏语系,汉语词条分为有单字词,双字词,三字词…,藏语词条可分为单音节词、双音节词、三音节词… 报告人:姚徐 * 藏语词条分为:单音节词、双音节词、三音节词、四音节词、多音节词(四音节以上的词或短语) 比例:5.8%:48.0%:22.4%:17.7%:6.1% 报告人:姚徐 * 建立依据 根据词条长度建立一级索引库 一级索引库 单音节库 双音节库 三音节库 四音节库 多音节库 报告人:姚徐 * 二级索引库 藏字字丁结构 报告人:姚徐 * 藏字长度:不同藏字可能有不同的长度 例如: 汉意“坐在垫子上” 此处共有4个藏字,长度分别为:3,2,1,4 根据藏字长度建立二级索引库,即词条首字长度长度分别为1,2,3,4的二级索引库 报告人:姚徐 * 三级索引库 作为一个藏字,基字丁是必不可少的,其余前加字、后加字和再后加字是非必需的 藏语中,能作为前加字的有繳 繻 繿 纀 纈5个 根据藏语词条的首字带不同前加字和无前加字建立6个三级索引库 报告人:姚徐 * 藏语分词词典机制 报告人:姚徐 * 实验结果 正确率:92.3% 速度:有索引比无索引的快10倍以上 报告人:姚徐 * 词典是否加索引 字数(个) 分词时间(秒) 无索引 176 90.9453 多级索引 176 10.2297 报告人:姚徐 * The end ! 恳请各位专家学者指导 Thank you! 报告人:姚徐 * 报告人:姚徐 *

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档