- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于半波编码的语音码本的设计.doc
基于半波编码的语音码本的设计|第1
Abstract: Based on the speech research, a pletely ne speech coding approach is presented called half-ethods for generating the initialvoice codebook and the codebook are explicated.In addition,the making of the unvoice codebook and silience codebook are analogized.
Keys)为1个单位,无声码字仅有1个,他由1帧采样点的值都为0的信号表示。码本由若干个码字构成,码本中码字的典型性和数目的多少是衡量一个码本质量好坏的标准。原则上说,总码本中码字的个数越多,编解码后的语音质量越好,但是,也存在着大码本所占的内存多、码字搜索慢、编码码率高等问题。所以,码字的个数必须适当。从编码速率、码本容量、计算复杂度等角度考虑,经过多次试验比较,本文确定总码本的大小为8 k,每个码字的序号都可用一个数字13 b的二进制数表示。总码本中,无声码字1个;清音码字512个,分属于清音子码本1~31;浊音码字7 679个,分属于浊音子码本1~68。
1.2 语音的清音、浊音、无声的划分
对于1帧语音,我们能判断出清音(Unvoice)、浊音(Voice)和无声(Silience)之后,我们就可以进行三态切分。对语音的三态判别的依据是平均幅度MS(NCFF)联合判断的。考虑到三态切分的不完全确定性,本切分方法的原则是:浊音不被切成清音,少量清音被切成浊音则无妨;清音不被切成无声,少量无声被切成清音也无妨。因为清音被当作浊音编码,由于清音也是由幅度较小的半波构成,用相应的半波码字去编码,不会丢失信息;反之,浊音被当作清音编码,则失去了原始语音信息。同理,清音被作为无声会失去原始信息,反之不会。
1.3 浊音码本生成的理论依据
原始语音经三态切分后所获得的浊音数据是以“半波”为单位(其中负半波的数据被取绝对值,变成正半波)切分的,相同宽度的所有半波存于同一个数组中。为了合理分配不同宽度“半波”的码字数,我们统计了所有不同宽度的“半波”出现的概率。由统计知,浊音中的半波越宽,出现的概率越小。在11.025 kHz的采样频率下,宽度大于40点的半波出现的概率不足0.5%,宽度大于68点的半波出现的概率不足0.04%。所以,在制作浊音码本时,将半波的最大宽度限定为68个点。因而浊音子码本确定为68个。根据码本的信噪比和人耳的听觉特性,本文将7 679个浊音码字分配到68个浊音子码本中。其原理如下:
一个“半波”即为一个矢量,半波的宽度是该矢量的维数,则各采样点的值即是该矢量的各维分量。这样,宽度相同的所有半波构成一个矢量集,共有68个矢量集,对每个矢量集进行矢量量化(VQ),生成对应的一个子码本。由矢量量化(VQ)理论可知,码本整体的信噪比的计算公式如下:
500)this.style.ouseg(this)
其中:i代表子码本的序号(即半波宽度);
Pi为半波出现的概率;
RSNi为第i个子码本的信噪比。
由于不同宽度的半波出现的概率不同,为了使整体的信噪比RSN全局最优,应根据半波出现概率来分配各个半波子码本的信噪比。
单纯以概率分配,码字分布如图1(a)所示。然而,实验表明1点和2点的半波码字出现的次数虽然很多,但实际上对听觉的作用很小。若将语音中宽度为l和2的半波采样点都置为0,语音的听觉效果几乎不受影响。故将半波宽度为1和2的半波子码本各分配8个码字(码字数量非常小)。再考虑到人耳的听觉特性,在图1(a)的基础上,适当压缩小宽度“半波”的码字,增加大宽度“半波”的码字,最终形成如图1(b)所示的 码字分布图。实验表明,这样构成的码本,其听觉效果是满意的。 500)this.style.ouseg(this)
在上述每个子码本已给定分配码字数的基础上,还以能量分布和人耳对响度的感知特性,进一步有效分配码字。分别对同一宽度的“半波”进行统计可知,随“半波”的平均幅度的增加,半波的数量呈近似对数规律减少。另外,人耳对语音信号能量的感知也是呈对数规律。所以,码字可按下式进行合理分配:
500)this.style.ouseg(this)
其中:μ为一个常数,其值的大小可以根据需要调节;x(n)为半波码字数;xmax为子码本码字的总数;y(n)为半波的平均幅度;ymax为相应宽度的所有半波中最大的半波平均幅度。
1.4 浊音初始化码本的设计
本文采用分裂法初始码本,第一步求出s(训练矢量集)中全体X的质心
500)
文档评论(0)