- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
藏语自动标音系统设计与实现
藏语自动标音系统设计与实现
摘要:本文在对藏文文本规范化、藏文音节结构确定和藏文SAMPA的设计与实现的基础上,设计与实现了藏语自动标音系统。藏语字音转换是文语转换系统中必不可少的一个模块,具体可以将藏文文字的拼写形式转换成音素的形式表示出来,解决从藏文文字到语音音标的转换问题。
关键词:藏语;语音合成;自动标音
中图分类号:TP391文献标识码: A文章编号:2095-2163(2015)06-
Abstract:Based on determining the Tibetan text specification, Tibetan syllable structure and design and implementation of Tibetan sampa, the paperstudies and presents the Tibetan automatic transcription system. Tibetan grapheme to phoneme conversion is a essential module for text to speech system, which can convertthe Tibetan language spelling form into phonemes representation, in order to solve the problem from the Tibetan text to speech phonetic conversion.
Keywords:Tibetan Language;Speech Synthesis;Automatic Labeling
0引 言
随着语音合成技术的发展及越来越多语音产品的出现,人机交互技术的应用也更加广泛,这些技术的应用大大提高了人们的工作效率。在语音合成系统中,首要解决的问题是文字如何发音,这就需要将文字转化成发音因素的音标形式,建立与文字相对应的音标数据库[1]。在语音合成时,主要利用字符匹配的方法来获取数据库里对应的音标。在汉语的文语转换系统中,已经实现了将汉字转化成汉语拼音这一功能,在英语和德语等语言的语音合成中,也完成了字素到音素的自动转换[2]。但是在藏语语音合成系统的相关研究中还没有关于自动注音方面系统性的文献和成果,基于此,本文提出了实现藏语字音转换的研究目标,作为文语转换系统中必不可少的一个模块,具体可以将藏文文字的拼写形式转换成音素的形式表示出来,解决从藏文文字到语音音标的转换问题。
1 系统设计及运行环境
1.1 系统设计方案
本文在分析藏文的文字特征和对应语法规则的基础上,制定藏文文本的规范化方案;通过对小字符集编码文字特征分析,提出藏文部件拆分算法,实现藏文文字的识别和分解;最后根据藏语各方言区的声韵调特征,建立基于SAMPA码的藏语各方言区机读音标系统,并参照藏语的拼读规则最终实现藏文音节的自动标注[3-4]。
在完成系统总体设计方案、部件确定算法及机读音标的设计后,把所有的算法整合运用到藏语自动注音系统中,以实现自动注音系统的整体功能。通过对文本切分,藏文文本自动注音就转化为藏语单音节自动注音,单音节自动注音的整体流程如图1所示。
1.2系统运行环境
系统运行环境主要包括硬件环境和软件开发环境。硬件环境是指对应的硬件配套设施。软件开发环境主要指Web操作系统,数据库系统和应用系统开发平台。良好的软件开发环境有利于系统开发人员设计,还有助于快速满足用户需求。
1.2.1 Web操作系统和数据库系统
由于Windows系统在国内使用较广,且不同的系统之间具有统一的界面,人机交互比较方便,普通用户的使用更加容易。此外,Windows网络操作系统比较稳定,基本上能够满足所有中、小型网络系统的需求,硬件配置相对较低。基于上述考虑,Web服务器平台系统采用Microsoft Windows 2008 server+IIS7.0,采用SQL Server 2008作为数据库服务的管理工具。
1.2.2 开发工具
通过前期系统需求分析以及系统设计方案的分析考虑,藏文自动标音系统的开发工具采用了Visual Studio.NET2010,程序设计语言选择C#,C#是基于.NET4.0平台的成熟完整的开发语言,拥有较为完善的Web Services技术框架,可以极大地缩短Web服务的开发周期,同时ADO.NET数据库访问技术能够使用.NET架构的最新特性。
2前台模块具体实现
2.1规范化文本模块
规范化文本模块的流程通过收集整理藏文文本中出现的不属于藏文字符的现象,设计处理此类文本的一
文档评论(0)