基于神经网络的语音识别点名系统.docVIP

下载本文档

2
0
约3.14千字
约 6页
2017-10-18 发布于北京
举报
版权申诉

基于神经网络的语音识别点名系统.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于神经网络的语音识别点名系统　　摘要：伴随着现代科学与计算机技术的发展，人们意识到了语音识别技术所具有的重要理论价值和广阔的应用前景，而语音识别技术也成为了现代计算机技术研究和发展的重要领域之一。考勤是评价学生平时成绩的重要指标，传统的点名方式效率低下，真实性得不到保证，而目前实施的点名系统无法改善此类现象。针对上述问题，设计一种基于神经网络的语音点名识别系统来提高点名的准确率。在基于神经网络的语音识别点名系统中，通过比对说话人声音特征的方式来确定学生的出勤，从大量的实验数据中可以发现，此种点名方式可有效地提高点名的准确率。　　关键词：语音识别特征提取神经网络　　中图分类号：TN912 文献标识码：A 文章编号：1672-3791（2017）02（b）-0016-02 　　考勤是评价学生平时成绩的重要指标，但其准确率和真实性却往往得不到保证。在过去的点名方式中，比较为人们所熟知的有：老师喊学生名字，学生回答“到”。这是最为传统的一种，但是此种方式的弊端也显而易见――在学生达到30人及以上时，由于人数过多，老师难以准确制止学生之间相互代答的现象，导致学生“浑水摸鱼”，蒙混过关，考勤成绩不具有真实、准确性；另外，在手机的快速发展和普及下，一种APP点名方式也逐渐兴起。在需要点名时打开手机APP点击签到即可，点名的时间不固定，老师通过签到的情况来确定学生是否缺勤。但这其中忽略的问题则是虽然点名时间是随机的，但是出勤的同学可以用多种方式来告知缺勤的同学使其完成签到，这种情况下，考勤结果依然无法辨别。　　针对上述问题，设计出一种基于神经网络的语音点名识别系统来提高点名的准确率。在课堂点名的时候，录入学生的实时语音，对输入的语音信号进行预处理，包括声音的预加重、加窗分帧处理与端点检测等。语音信号经过预处理后，再进行特征参数提取。在训练阶段，对特征参数进行一定的处理之后，为每个词条得到一个模板，保存为模板库。在识别阶段，语音信号经过相同的方法得到语音参数，生成测试模板，与参考模板进行匹配，将匹配相似度最高的参考模板作为识别结果。通过识别结果来判断是否为同一个学生回答，这样则可减少老师点名工作的繁杂度，并且可以大幅增加考勤的有效性以及准确率，来更好地达到“考勤”这一行为的预期目的。　　通过实验表明，该系统具有较高的准确率。从之前的老师点名学生回答和APP点名等方式对真实性的一无所知、无法预测到现如今该系统可以使考勤的准确率达到85%以上，都表明了这种基于神经网络的语音点名识别系统可以有效地减少学生代替答到的行为并提高学校考勤的准确率，使评价学生平时成绩的重要指标――考勤结果更加真实、可靠。　　1 具体方案　　1.1 模型库建立　　1.1.1 语音识别的预处理　　语音信号的预处理是语音识别的基础与前提，包括语言的预滤波、采样、预加重、加窗分帧处理与端点检测等。　　（1）预滤波、采样。　　预滤波的目的是：抑制语音信号中超过f/2（f为采样频率）的分量对语音产生混叠的现象；有效地实现对50 Hz电源干扰的抑制。　　滤波时使用的是个带通滤波器，采样定理要求采样频率至少要是语音频率的两倍。　　在滤波和采样结束后，将模拟信号转换成数字信号。　　（2）预加重。　　声音信号中，处于低频段的信号能量比较大，集中了语音信号的绝大多数信息量。预加重就是将语音信号在输入端对高频部分进行增大，达到提高信噪比的目的[1-2]。　　（3）分帧与加窗。　　分帧可以采用连续分段的方法，但是为了使帧与帧之间能够平滑过渡，保持很好的连续性，现在一般采用交叠分段的方法。前一帧和后一帧的交叠部分称为帧移，帧移与帧长的比值一般取0～1/2。　　在语音信号处理中常用的窗函数是矩形窗和汉明（Hamm ing）窗等。由于汉明窗的旁瓣高度是最小的，而主瓣是最高的，其对抑制频谱的泄露比较有效果，汉明窗有比其他窗函数更好的低通性[3]。　　1.1.2 语音识别的特征参数提取　　特征提取是指从说话人的语音信号中获得一组能够描述语音信号的特征参数的过程，人们发现说话人语音的个性特征在很大程度上取决于说话人的发音声道。特征参数可以是能量、共振峰值、零相交率等语音参数。因为不同的人所说出语音的各项特征参数不相同，因此，可以将特征参数作为判断两段语音是否为同一个人的重要判断依据[4]。　　1.2 语音识别　　1.2.1 人工肝神经网络简介　　人工神经网络（ANN）简称神经网络，使用计算机网络系统模拟生物神经网络的智能计算系统。它是基于人脑神经元的原理，模拟人脑神经元的结构和活动建立的一种识别模型，其最终目的是建成一种具有自学习能力、联想能力、识别能力的系统[5]。　　1.2.2 BP神经网络　　BP