- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
藏文文本规范化处理研究.doc
藏文文本规范化处理研究
摘要:本文通过对藏文文本中不规范文本进行分类后,针对不同类型的文本特征制定规范化处理方法,最终实现了对藏文文本的规范化处理。但因藏文文本来源的不确定性,文本中可能会存在一些未收集到的不规范文本类型,需在后期的研究工作中继续收集整理。
中国 8/vie
关键词:信息处理; 藏文文本; 规范化
中图分类号: TP391
文献标志码:A
: 2095-2163(2016)06-0029-03
0引言
[JP2]藏文文本规范化处理主要是对藏文文本做版面分析,识别并规范藏文文本中可能出现的非正常藏文字符的过程。藏文文字属于符号文字,藏文文本中除包含正常的藏文字符外,还可能会出现借形词、特殊符号、黏着语等一些特殊字符形式\[1\]。这些藏文特殊字符的存在会直接影响到文本信息处理的正确性。在规范化处理时,需在正确理解其产生原因的基础上确定相应处理方式,依据其所处语境设定相应规则将这些符号转换成规范的藏文文本形式。在藏语字音转换系统中,对非规范形式的藏文文本进行规范化处理能保证后续字音转换顺利完成,因此对藏文文本规范化处理是一个必不可少的基础工作。
[JP3]本文通过对藏文文本进行分析,确定藏文文本规范化主要有2个任务:第一个任务是特殊符号归一化;第二个任务是外借词藏文化。在此,拟将针对每一部分研究给出如下分析论述。[JP]
[BT4]1特殊符号归一化
藏文文本规范化主要是指在藏文文本中出现的一些非常用藏文标记符号以及其它有特殊含义的符号,这些特殊符号的存在会对后期文本理解造成歧义。
[BT5]1.1标记符号归一化处理
在藏文文本中可能会存在这样一些符号,这类符号有些能够表达语言功能,有些只是文本中存在的装饰性图案,这些标记符号对语音并没有任何作用,因此在获取规范化设计时即需要进行归一化处理。
根据目前从各类文献中收集藏文符号和图形的分析,藏文文本中的字符与图形可以划分为文字符号与非文字符号两大类。其中,文字符号除了包括能够书写语言声音的藏文字符外,还包括描写声音连接、停顿和结束的符号;非文字符号可以表示某种事物或观念意义,但与语言声音无关,主要包括篇章符、敬重符、历算符等\[3\]。
藏文文本中出现的藏文标记符号,一般没有实际语义,所以对这些符号推行规范化处理时,只需要获取其出现的特征标记以及对应的编码形式,通过建立标记符号替换规则表,然后在待处理的文本中识别出这些符号,利用标记符号替换规则表即可实现归一化处理。
[BT5]1.2其它类型特殊符号归一化处理
其它类型特殊符号规范化处理时,首先收集整理可能出现的符号类型以及其表示的具体语义;其次是确定标准的藏文文本表示形式;最后再建立对应的映射规则表。规范化处理时直接通过映射规则表查找出对应的符号,再将其利用表里的标准藏文文本形式代替即可。映射规则表如表1所示。
2外借词藏文化处理
因藏文文本的网络化传播,许多藏文文本中存在这样一类词,这一类词借用藏语以外的其他民族?Z言字形,但是却需要按照藏语的读音来读,这类词就是外借词。外借词主要有2种形式,一种是简略词形式,一种是数字符号形式。
[BT5]2.1简略词规范化处理
藏文文本中的简略词,主要来源于其它语种中一些事物缩略表示形式。简略词的存在会影响对藏文文本的正确分析,因此对简略词规范化处理在自动注音系统中非常重要。
一般而言,藏文文本中包含的简略词主要有2类:一类是常用的单位简写形式。例如:mm、cm、kg等,这种形式需要转换成藏文进行发音;另一类是一些特殊名词的简略表示形式。例如:CO、LA、CA、DC、USA等,这一类外借词在规范化处理时直接按照原来的形式与藏文分开。简略词规范化处理主要是通过建立简略词转换表来获得实现的,简略词转换如表2所示,具体处理过程如下[3]:
1)首先对已进行符号归一化处理的藏文文本按照句子进行切分,其次将藏文句子按照藏文文本、数字符号以及其它文本进行识别并标记,以此得到3类不同的字符块。
2)将切分后的句子中所有文本块分别在简略词表中查找,若在简略词表中,转3),否则转4)。
3)查找结果在上下文中进行一一对应,确定对应的规范化形式。
4)继续处理下一个句子。
2.2数字符号规范化处理
2.2.1数字符号种类
数字符号的表示形式主要有4类[4],具体给出如下分析论述。
1)电话号码形式。固定电话号码形式相对一致,可能包含前缀符号、区号和普通号码三个部分,每部分之间可能存在分隔符号。一般而言,国内的电话基本一致,包含区号和普通号码两部分共计11个数字符号,其中区号部分有3~4个数字,普通号码有7~8个数字。如果一个文本块
原创力文档


文档评论(0)