人工智能_22. 语音识别的原理1.docxVIP

人工智能_22. 语音识别的原理1.docx

22：语音识别的原理

教师姓名

授课名称

人工智能及机器学习基础知识

授课形式

授课班级

授课地点

授课日期

章节名称

语音识别的原理

教学目的

掌握语音识别的基本原理

掌握语音识别的主要技术。

重点难点

重点：语音识别的基本原理。

难点：语音识别的技术。

主要内容

一、课程引入

让机器听懂人类的语音，这是人们长期以来梦寐以求的事情。伴随着计算机技术的发展，语音识别在人机交互应用中逐渐进入我们日常的生活，已经成为人工智能领域的标志性技术之一。

语音识别技术以语音信号为研究对象，是语音信号处理的一个重要研究方向。其最终目标是实现人与机器进行自然语言通信。目前市场上也有很成熟的语音机器人。

课程内容

声音实际上是一种波，俗称声波。常见的mp3、wmv等格式都是压缩格式，必须转成非压缩的纯波形文件来处理，比如WindowsPCM文件，也就是俗称的wav文件。wav文件里存储的除了一个文件头之外，就是声音波形的一个一个点了。

在开始语音识别之前，有时需要把首尾端的静音切除，降低对后续步骤造成的干扰。这个静音切除的操作一般称为VAD，需要用到信号处理的一些技术。

要对声音进行分析，需要对声音分帧，也就是把声音切开成一小段一小段，每小段称为一帧。

分帧操作一般不是简单的切开，而是使用移动窗函数来实现。