藏文编码字符集标准应用中的问题及对策-藏语自然语言处理研究动态.PDFVIP

  • 21
  • 0
  • 约1.51万字
  • 约 7页
  • 2018-01-05 发布于天津
  • 举报

藏文编码字符集标准应用中的问题及对策-藏语自然语言处理研究动态.PDF

藏文编码字符集标准应用中的问题及对策-藏语自然语言处理研究动态

藏文编码字符集标准应用中的问题及对策* Problems and Improvement Measures of Tibetan Coded Character Set in Application 1 2 3 █ 中国科学院软件研究所 中国社会科学院民族学与人类学研究所 西藏大学 1,2 1 1 3 1 龙从军 刘汇丹 安 波 才 华 吴 健 摘 要 藏文文本中存在同形异码现象给文本处理带来一定的问题。通过大规模文本统 计,找出了90 组同形异码实例,通过分析发现,藏文文本中同形异码现象是国际编码集中 同时存在单字符编码和组合字符编码导致的。在进一步对字符编码集进行分析,描述了各种 可能产生同形异码的字符,从改进国际编码字符集和改进输入法等方面提出一些建议。 关键词 藏文国际编码 藏文输入法 单字符 组合字符 Abstract: The problem of the same shape different code is always present in Tibetan texts; it

文档评论(0)

1亿VIP精品文档

相关文档