- 1、本文档共27页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
VAD、解码、自动录音模块讲解
谢谢! * MFCC特征 Mel-frequency cepstral coefficients Mel-频率倒谱系数 特征优点:符合人耳听觉特性 Mel频率 物理上用频率表示声音的音调,单位HZ 人主观感觉音频是心理过程,用音高表示,单位为Mel; 人耳所听到的声音高低与声音的频率并不成线性关系,而Mel频率尺度更符合人耳的听觉特性。 * * * 整个语音信号的端点检测可以分为四段:静音、过度段、语音段、结束。程序中使用一个变量status来表示当前所处的状态。在静音段,如果倒谱值超越了低门限,就应该开始标记起始点,进入过渡段。在过渡段中,由于参数的数值比较小,不能确信是否处于真正的语音段,若在那帧之后若干帧以内,连续几帧都大于T1,就可以确信进入语音段落。若倒谱值连续大于T2则保持在语音段。若倒谱值回落到T2以下,而且总的记时长度小于最短时间门限,则认为这是一段噪音。 * 举一个简单的例子:一口袋里有3只红球、2只白球,采用不放回方式摸取,求: ⑴ 第一次摸到红球(记作A)的概率; ⑵ 第二次摸到红球(记作B)的概率; ⑶ 已知第二次摸到了红球,求第一次摸到的是红球的概率。 解: ⑴ P(A)=3/5,这就是验前概率; ⑵ P(B)=P(A)P(B|A)+P(A逆)P(B|A逆)=3/5 ⑶ P(A|B)=P(A)P(B|A)/P(B)=1/2,这就是后验概率。 * 解码的方法:维特比解码 维特比解码要使用HMM模型 声学模型是语音识别系统中最为重要的部分之一,目前的主流系统多采用隐马尔科夫模型进行建模。 隐马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。 对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。 * 解码的方法:维特比解码 维特比解码要使用HMM模型 * * 维特比算法由安德鲁·维特比(Andrew Viterbi)于1967年提出,用于在数字通信链路中解卷积以消除噪音。此算法被广泛应用于CDMA和GSM数字蜂窝网络、拨号调制解调器、卫星、深空通信和802.11无线网络中解卷积码。现今也被常常用于语音识别、关键字识别、计算语言学和生物信息学中。例如在语音(语音识别)中,声音信号做为观察到的事件序列,而文本字符串,被看作是隐含的产生声音信号的原因,因此可对声音信号应用维特比算法寻找最有可能的文本字符串。 * 维特比算法由安德鲁·维特比(Andrew Viterbi)于1967年提出,用于在数字通信链路中解卷积以消除噪音。此算法被广泛应用于CDMA和GSM数字蜂窝网络、拨号调制解调器、卫星、深空通信和802.11无线网络中解卷积码。现今也被常常用于语音识别、关键字识别、计算语言学和生物信息学中。例如在语音(语音识别)中,声音信号做为观察到的事件序列,而文本字符串,被看作是隐含的产生声音信号的原因,因此可对声音信号应用维特比算法寻找最有可能的文本字符串。 * 维特比算法由安德鲁·维特比(Andrew Viterbi)于1967年提出,用于在数字通信链路中解卷积以消除噪音。此算法被广泛应用于CDMA和GSM数字蜂窝网络、拨号调制解调器、卫星、深空通信和802.11无线网络中解卷积码。现今也被常常用于语音识别、关键字识别、计算语言学和生物信息学中。例如在语音(语音识别)中,声音信号做为观察到的事件序列,而文本字符串,被看作是隐含的产生声音信号的原因,因此可对声音信号应用维特比算法寻找最有可能的文本字符串。 * 维特比算法由安德鲁·维特比(Andrew Viterbi)于1967年提出,用于在数字通信链路中解卷积以消除噪音。此算法被广泛应用于CDMA和GSM数字蜂窝网络、拨号调制解调器、卫星、深空通信和802.11无线网络中解卷积码。现今也被常常用于语音识别、关键字识别、计算语言学和生物信息学中。例如在语音(语音识别)中,声音信号做为观察到的事件序列,而文本字符串,被看作是隐含的产生声音信号的原因,因此可对声音信号应用维特比算法寻找最有可能的文本字符串。 * 维特比算法由安德鲁·维特比(Andrew Viterbi)于1967年提出,用于在数字通信链路中解卷积以消除噪音。此算法被广泛应用于CDMA和GSM数字蜂窝网络、拨号调制解调器、卫星、深空通信和802.11无线网络中解卷积码。现今也被常常用于语音识别、关键字识别、计算语言学和生物信息学中。例如在语音(语音识别)中,声音信号做为观
您可能关注的文档
最近下载
- 海康威视VisionMaster算法平台用户手册V2.2.pdf
- 石秀峰-数据治理-企业数字化转型必经之路-2022.3.19.pdf VIP
- 某大学综合体育馆项目可行性研究报告.doc VIP
- 幼儿园大班音乐《光脚的小约翰》活动课件.pptx
- 三校生计算机基础知识提纲及讲义资料.docx
- 三年级音乐学情及教材分析集合6篇 .pdf VIP
- 2024《小米公司手机品牌营销环境SWOT分析及营销策略》10000字.docx
- 九年级化学下册教学课件《跨学科实践活动9 探究土壤酸碱性对植物生长的影响》.pptx VIP
- 大疆 大疆智图 操作白皮书.pdf VIP
- 2025年贵州遵义市仁怀市申仁包装印务有限责任公司招聘笔试参考题库附带答案详解.pdf
文档评论(0)