- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
VAD、解码、自动录音模块
谢谢! * MFCC特征 Mel-frequency cepstral coefficients Mel-频率倒谱系数 特征优点:符合人耳听觉特性 Mel频率 物理上用频率表示声音的音调,单位HZ 人主观感觉音频是心理过程,用音高表示,单位为Mel; 人耳所听到的声音高低与声音的频率并不成线性关系,而Mel频率尺度更符合人耳的听觉特性。 * * * 整个语音信号的端点检测可以分为四段:静音、过度段、语音段、结束。程序中使用一个变量status来表示当前所处的状态。在静音段,如果倒谱值超越了低门限,就应该开始标记起始点,进入过渡段。在过渡段中,由于参数的数值比较小,不能确信是否处于真正的语音段,若在那帧之后若干帧以内,连续几帧都大于T1,就可以确信进入语音段落。若倒谱值连续大于T2则保持在语音段。若倒谱值回落到T2以下,而且总的记时长度小于最短时间门限,则认为这是一段噪音。 * 举一个简单的例子:一口袋里有3只红球、2只白球,采用不放回方式摸取,求: ⑴ 第一次摸到红球(记作A)的概率; ⑵ 第二次摸到红球(记作B)的概率; ⑶ 已知第二次摸到了红球,求第一次摸到的是红球的概率。 解: ⑴ P(A)=3/5,这就是验前概率; ⑵ P(B)=P(A)P(B|A)+P(A逆)P(B|A逆)=3/5 ⑶ P(A|B)=P(A)P(B|A)/P(B)=1/2,这就是后验概率。 * 解码的方法:维特比解码 维特比解码要使用HMM模型 声学模型是语音识别系统中最为重要的部分之一,目前的主流系统多采用隐马尔科夫模型进行建模。 隐马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。 对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。 * 解码的方法:维特比解码 维特比解码要使用HMM模型 * * 维特比算法由安德鲁·维特比(Andrew Viterbi)于1967年提出,用于在数字通信链路中解卷积以消除噪音。此算法被广泛应用于CDMA和GSM数字蜂窝网络、拨号调制解调器、卫星、深空通信和802.11无线网络中解卷积码。现今也被常常用于语音识别、关键字识别、计算语言学和生物信息学中。例如在语音(语音识别)中,声音信号做为观察到的事件序列,而文本字符串,被看作是隐含的产生声音信号的原因,因此可对声音信号应用维特比算法寻找最有可能的文本字符串。 * 维特比算法由安德鲁·维特比(Andrew Viterbi)于1967年提出,用于在数字通信链路中解卷积以消除噪音。此算法被广泛应用于CDMA和GSM数字蜂窝网络、拨号调制解调器、卫星、深空通信和802.11无线网络中解卷积码。现今也被常常用于语音识别、关键字识别、计算语言学和生物信息学中。例如在语音(语音识别)中,声音信号做为观察到的事件序列,而文本字符串,被看作是隐含的产生声音信号的原因,因此可对声音信号应用维特比算法寻找最有可能的文本字符串。 * 维特比算法由安德鲁·维特比(Andrew Viterbi)于1967年提出,用于在数字通信链路中解卷积以消除噪音。此算法被广泛应用于CDMA和GSM数字蜂窝网络、拨号调制解调器、卫星、深空通信和802.11无线网络中解卷积码。现今也被常常用于语音识别、关键字识别、计算语言学和生物信息学中。例如在语音(语音识别)中,声音信号做为观察到的事件序列,而文本字符串,被看作是隐含的产生声音信号的原因,因此可对声音信号应用维特比算法寻找最有可能的文本字符串。 * 维特比算法由安德鲁·维特比(Andrew Viterbi)于1967年提出,用于在数字通信链路中解卷积以消除噪音。此算法被广泛应用于CDMA和GSM数字蜂窝网络、拨号调制解调器、卫星、深空通信和802.11无线网络中解卷积码。现今也被常常用于语音识别、关键字识别、计算语言学和生物信息学中。例如在语音(语音识别)中,声音信号做为观察到的事件序列,而文本字符串,被看作是隐含的产生声音信号的原因,因此可对声音信号应用维特比算法寻找最有可能的文本字符串。 * 维特比算法由安德鲁·维特比(Andrew Viterbi)于1967年提出,用于在数字通信链路中解卷积以消除噪音。此算法被广泛应用于CDMA和GSM数字蜂窝网络、拨号调制解调器、卫星、深空通信和802.11无线网络中解卷积码。现今也被常常用于语音识别、关键字识别、计算语言学和生物信息学中。例如在语音(语音识别)中,声音信号做为观
您可能关注的文档
- 第五章骨骼肌、心肌和平滑肌细胞的生理概要.ppt
- Units 11—12复习[九年级](共33张PPT).ppt
- Unit_12SectionB.ppt
- Unit2绘画与修饰.ppt
- upos-门店销售系统.pptx
- UPS不间断电源技术规范书.doc
- Unix_Linux操作系统安全技术.ppt
- Unit_1_International_Trade.ppt
- Unti 3 could you please tell me where the restrooms are SectionB.ppt
- UTC预热PPT二版.pptx
- 广西玉林高级中学2024届高三第三次模拟考试历史试卷含解析.doc
- 苏州大学应用技术学院《服装商务英语》2023-2024学年第一学期期末试卷.doc
- 广东执信中学2025届高一下语文期末经典模拟试题含解析.doc
- 黑龙江省鸡西虎林市东方红林业局重点达标名校2024-2025学年中考物理试题模拟试卷解析含解析.doc
- 吉林省长春市南关区东北师大附中净月实验学校2024-2025学年语文高一第二学期期末检测试题含解析.doc
- GB 50634-2010 水泥窑协同处置工业废物设计规范(2015年版).pdf
- GB 50650-2011 石油化工装置防雷设计规范(2022年版).pdf
- 营业税练习题及答案营业税练习题.docx
- 营业税改增值税政策解读.docx
- 营业线试行办法.doc
原创力文档


文档评论(0)