藏文主动分词技能方法研究.pdfVIP

  • 12
  • 0
  • 约5.68万字
  • 约 61页
  • 2018-06-26 发布于贵州
  • 举报
藏文主动分词技能方法研究

摘 要 藏文分词是藏文信息处理中一项不可缺少的基础性工作。从文本 的输入系统〔如智能语句输入法、语音输入、手写输入),到文字处 理(如文本校对)以及语音合成、文本检索、文本分类、自然语言接口、 自动文摘等,无处不渗透着分词系统的应用,它是藏文信息处理重要 基础之一。 众所周知,英文以词为单位,以空格隔开。计算机可以容易地理 解英文单词。而藏文句子中,词与词之间没有明显的分隔符(如空格)。 藏文以字(音节字)为单位,连字成句才能描述一个完整的意思。而 对由词组成的藏文句子,必须通过藏文分词技术才得以理解。把藏文 的音节字序列切分成有意义的词,是藏文分词的研究工作。 通过研究和分析藏文分词的概念以及国内外相关成果,本文系统 地提出了分词系统中藏文分词切分单位的划定原则以及藏文分词技 术方法,结合藏文自然标记断句、以格助词来为分块、块内匹配与统 计相结合的分词方法,提出了藏文自动分词方法、格助词的识别方法、 交集型和组合型歧义的识别方法及未登录词识别方法。进而提出了藏 文自动分词的基础理论知识及分词技术方法。 关键词 分词,格助词,未登录词,歧义,分词方法 I Abstract Tibetan word segmentation is an indispensable fundamental work for Tibetan information processing. From text input system(such as intelligent statement input, sound input and handwritten input) to the word processing (such as text check), and speech synthesis, text retrieval, text classification, natural language interface, automatic abstract etc. The segmentation system applicate every where. It is the core of Tibetan information processing and foundation of Tibetan natural language understanding. As well known, English words separated by Spaces, but in Tibetan sentence between the word no obvious separators (such as Space). Tibetan words unit is syllables, the syllables together to sentence and describe the mean. But Tibetan sentences composed by syllables, so computer can underdtand the Tibetan by the word segmentation. The Tibetan syllables word sequence segment into meaningful words, namely the Tibetan word segmentation. It is description of the whole technology for word segmentation, and introduction of the technology and the theory of Chinese word

文档评论(0)

1亿VIP精品文档

相关文档