- 12
- 0
- 约5.68万字
- 约 61页
- 2018-06-26 发布于贵州
- 举报
藏文主动分词技能方法研究
摘 要
藏文分词是藏文信息处理中一项不可缺少的基础性工作。从文本
的输入系统〔如智能语句输入法、语音输入、手写输入),到文字处
理(如文本校对)以及语音合成、文本检索、文本分类、自然语言接口、
自动文摘等,无处不渗透着分词系统的应用,它是藏文信息处理重要
基础之一。
众所周知,英文以词为单位,以空格隔开。计算机可以容易地理
解英文单词。而藏文句子中,词与词之间没有明显的分隔符(如空格)。
藏文以字(音节字)为单位,连字成句才能描述一个完整的意思。而
对由词组成的藏文句子,必须通过藏文分词技术才得以理解。把藏文
的音节字序列切分成有意义的词,是藏文分词的研究工作。
通过研究和分析藏文分词的概念以及国内外相关成果,本文系统
地提出了分词系统中藏文分词切分单位的划定原则以及藏文分词技
术方法,结合藏文自然标记断句、以格助词来为分块、块内匹配与统
计相结合的分词方法,提出了藏文自动分词方法、格助词的识别方法、
交集型和组合型歧义的识别方法及未登录词识别方法。进而提出了藏
文自动分词的基础理论知识及分词技术方法。
关键词 分词,格助词,未登录词,歧义,分词方法
I
Abstract
Tibetan word segmentation is an indispensable fundamental work
for Tibetan information processing. From text input system(such as
intelligent statement input, sound input and handwritten input) to the
word processing (such as text check), and speech synthesis, text retrieval,
text classification, natural language interface, automatic abstract etc. The
segmentation system applicate every where. It is the core of Tibetan
information processing and foundation of Tibetan natural language
understanding.
As well known, English words separated by Spaces, but in Tibetan
sentence between the word no obvious separators (such as Space).
Tibetan words unit is syllables, the syllables together to sentence and
describe the mean. But Tibetan sentences composed by syllables, so
computer can underdtand the Tibetan by the word segmentation. The
Tibetan syllables word sequence segment into meaningful words, namely
the Tibetan word segmentation.
It is description of the whole technology for word segmentation, and
introduction of the technology and the theory of Chinese word
您可能关注的文档
最近下载
- 唐诗三百唐诗300首大全.pdf VIP
- 2017款比亚迪唐_汽车使用手册用户操作图解驾驶车主车辆说明书电子版.pdf
- 包装车间主任个人工作总结8篇.docx VIP
- 把财产留独生子女遗嘱范文.docx VIP
- 河南省养猪行业企业名录2018版7354家.pdf VIP
- 汇川inovance MD605系列紧凑型变频器功能手册.PDF VIP
- 2024年全国有机食品行业企业名录4354家.pptx VIP
- T CHATA 029—2023 住院结核病患者营养筛查与评估.pdf VIP
- 2026《隧道贯通误差预计计算案例》4000字.docx
- (JTJ215-98)港口工程荷载规范.pdf VIP
原创力文档

文档评论(0)