- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
不用WindowsSpeechSDK的“语音合成”方案
不用Windows Speech SDK的“语音合成 ”方案 ----风轻云淡
“语音合成 ”,在电脑上实际上是完成“字符转变为语音”这个功能的。我个人也就沿用这个“语音合成 ”这个概念吧。
笔者就此事情,了解了一下“语音识别和语音合成”程序设计方面的事情,好像都是要借助于“微软Windows Speech SDK”这个开发包。假如要甩开这个“SDK”,是否有可能呢?笔者通过实验[注①]来看是可以的。
但它是否能推广到一般呢?是否可以仿此推广到其它的语种呢?是否可以多语种的混合使用?是否可以在Liunx系统中仿照方法也能够实现呢?诸如此类的种种问题,有待于广大程序员的辛勤和努力工作。
下面,把我以中文为对象,在VB里的做过的实验过程大概的说一下:
先制作发音文件:
中文发音文件,根据《现代汉语词典》商务印书馆 1981年北京版这部词典来制作的。根据【音节表】制作1331个中文音节发音音频文件,是MP3格式,【每个音节做成一个音频文件,包括汉语拼音的四声,分别命名为编号. MP3】。其序号从1开始一直排到1331.。每个音频文件的名称就成了xxx.mp3,注:[xxx表示1—1331之间的任意整数]。
为说明和理解的方便,暂时把这些发音文件理解成一个文件,即“读音文件”。
关于这种文件的制作,有条件的可以自己录音制作,笔者也赞成这样,做好的发音文件要经过修剪的。因为笔者是为了实验,也就暂时借助于其它的语音合成软件合成了供实验用的材料。
【思考和讨论:笔者采用MP3格式的原因是文件占用空间比较小,相对于wav格式,那么是否还有其它的格式可供采用呢?特别是数字格式的,即:用一个数字来表示,或者一个数组来表示,为何要考虑其它格式,原因很简单,就是想考虑和以后的语音识别能否共用这些文件,这点至关重要】。
第二个文件是“汉字发音编号索引”文件,文件内容的格式是: 汉字+空格+发音编号。例如:猜 80。这里的空格也可以用其它符号。也就是说:一个汉字对应着一个发音编号。
那么,下面说说建立这个文件步骤:
1 :建立一个零时字库文件,建立这个文件,当然是选择的独立汉字越多越好;建立字库文件,可以设计一个小工具来从文章里筛选得到。我选择了大概有4000多个,这个数字在现实中是完全不够用的,但目前只是实验,笔者也就没有再继续做这方面的工作了。
2:把字库文件的每一个汉字进行读音标注,这个工作也只能借助于软件来完成。
3:音节发音文件与汉字读音文件合并成一个文件,暂且命名为:hanziduyinbianhao[汉字读音编号],这样就成了【汉字+空格+发音编号】这样的文件。在合并时要这样做:把每一个汉字转换为ASCII码,以这个ASCII码作为记录号写入随机文件。因为以后查阅的时候,仍然是根据其ASCII码来查找的,这样速度快。当然,不反对使用数据库的方案。
这项工作也得由软件来完成,笔者也只得自己设计一个这样的小工具了。这个工具也很简单,用字符匹配函数和字符运算就够了。
上面的两个文件制作好后,就存放在一定的文件夹下:我这里放在D:\shiyai文件夹下,这个文件夹下有还有一个 文件夹,这个是存放音节发音文件的,我这里命名为yinpinmp3,它里面存放了1331个MP3音频文件。如果再把hanziduyinbianhao.dat这个文件方的D:\shiyai文件夹下,那么在shiyan就有一个文件hanziduyinbianhao.dat和一个文件夹yinpinmp3。如果要他们进行操作的话,就先写出路径,写法如下:
D:\shiyai\hanziduyinbianhao.dat
【hanziduyinbianhao.dat是:“汉字读音编号”】
D:\shiyai\ yinpinmp3\xxx.mp3
【xxx.mp3是:“读音文件”】
上面的两个文件做好以后,【“汉字读音编号”和“读音文件”】就可以进行程序的设计了。
现在先看看这个程序的思路流程:以“我们的国家是一个伟大的国家”这句话为例。
分析:
1:计算机要把这一句话说出来,只能是按照先后顺序一个字一个字的说,人们说话或者听话的习惯也是如此,那么,就得把这句话拆分成单个的汉字,这样就得设计一个拆分过程;
2:计算机本
您可能关注的文档
最近下载
- 食品安全管理手册(含程序文件 ).doc VIP
- 82页精益制造数字化转型智能工厂三年规划建设方案PPT.pptx VIP
- 高级建筑电气工程师考试题及答案.pdf VIP
- 2025年各省市全民国防教育知识竞赛题库及答案.docx
- 2022届广州市高三12月调研考(零模)语文试题.doc VIP
- 国家电网公司电力安全工作规程第5部分:风电场.pdf VIP
- 2024年中级通信工程师传输与接入(有线)知识点.pdf
- 废锂离子动力蓄电池处理污染控制技术规范(试行)(HJ1186—2021).pdf VIP
- GB50652-2011 城市轨道交通地下工程建设风险管理规范.docx VIP
- 2.3《游戏中的观察》教学设计 2025教科版科学一年级上册.pdf
文档评论(0)