- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
精品文档,助力人生,欢迎关注小编!
简述语音识别的实现过程
摘 要 随着科学技术的不断进步,语音识别已经开始从实验室阶段逐步进入人们的生活中。语音识别凭借其安全、高效、便捷等优点,得到了越来越多的关注和使用。语音识别所涉及的领域也越来越宽泛,例如智能家具、远程操控、智能手机等。语音识别可以直接将人类对机器的语音指令转化为具体的操作,大大方便了人们的生活,并且有着相当广阔的发展空间。文章主要介绍语音识别在各方面的具体功能,实现过程以及对语音识别技术本身展开分析。
关键词 语音识别;机器学习;人机交互;贝叶斯
中图分类号 TP3 文献标识码 A 文章编号 1674-6708(2020)227-0121-02
在过去,人类只能依靠复杂且专业的指令码,将其输入到机器中才能实现外界与机器的交流,而在今天,语音识别已经可以代替上述过程,并且大量运用到了人们的生活中。谷歌成立20周年之际,戈麦斯说:“语音识别和对语言的理解是未来搜索和信息的核心,这是发展中国家的又一个机会。”由此可见,针对语音识别技术的投入和深入都是不可或缺的。
所谓的语音识别,就是指让机器通过识别和理解过程把语音信号转变为相应的文本信息或命令信息的高科技技术。语音识别通过语音输入系统,控制系统以及对话查询系统使得机器收到人的语音指令,并完成相应操作。未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
1 语音识别功能的分析
1.1 语音输入系统
语音输入系统是语音识别的基础技术,其大致的功能有:1)提取有效的声音信息:在进行语音识别时,不可能总是在一个绝对安静,理想的环境下进行的,这就需要机器识别声音的来源。2)从有效信息中识别身份:现在大部分机器,像一些智能手机,已经可以从数个不同人的声音中找出需要进行识别的那部分语音信号。3)有效信息的输入:就是在识别出有效信息后,它会通过一些传感器,将声音信号转化为电信号输入到内部计算机中进行处理。
1.2 语音控制系统
所谓的语音控制系统,具体来说,就是将接收到的语音信息与实际内容进行匹配,理解语义并具体执行。语音信息以电流的形式输入计算机后,计算机会根据数据库里的内容进行匹配,根据特征匹配确定具体的字形,最后组成具体的词组。例如 iPhone手机中的Siri系统,就是通过这样一种方式实现与使用者的智能交流。小米研发的智能家居也用到了这种技术,使用者可以通过其自带的智能管家对家中所有小米的智能家居进行智能控制,对于接收到的指令具体分析并执行,大大方便了人们的生活。
1.3 智能对话查询系统
所谓的智能对话查询系统是人机交互的一种重要组成部分,它可以帮助使用者与机器之间进行相互的信息传递。对于同一项功能的咨询,人们的问法有许多种,智能对话查询系统能够使得机器得以真正理解使用者的需求,也能更加完美的给予反馈。语音识别不只是人发出指令,机器执行这样的简单过程,更是一个机器与使用者协助共同完成任务的双向过程。
2 语音识别的实现过程
2.1 转化语音信号
在语音识别开始时,首先要对接收到的语音信息进行一些处理,将计算机无法识别的声波信号转化为可处理的电信号。由于进行语音识别时,说话者不可能处在一个绝对安静的环境中,这就要求语音识别要对采集到的声音信息首先进行预处理。预处理包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等,并涉及到语音识别基元的选取和端点检测问题,有时还包括模数转换器[ 1 ]。
预处理结束之后,语音识别内部的传感器会将这些真正有效的语音信号转化为电信号,输入到计算机内,再进行下一步加工处理,最终得到计算机能够理解的二进制数字。每一种频率的声波都有与之对应的电信号,但由于每个人说话的口音存在差异,语音识别只能找到与说话者发音最为相似的字音。在判断相似性时,我们首先需要设定好标准读音下的语音向量,再获取实际场景下得到语音向量,利用公式:
比较两个向量之间的夹角大小,把特征分析提取的一组随时间而变的特征矢量序列和事先通过学习后存在机器里的样本序列进行比较。我们将两个向量相乘再除以他们各自的模得到他们之间的夹角,夹角越小,向量之间也就越为相似,从而语音识别得以找到最接近每个人发音的字形。目前有代表性的语音识别方法主要有模板匹配法、隐马尔可夫法(HMM)和神经网络法(ANN)[ 2 ]。语音识别系统常用的特征参数有短时平均幅度、短时平均能量、线性预测编码系数、短时频谱等,特征提取和选择是构建系统的关键,对识别效果极为重要[3]。
2.2 语音识别的机器学习过程
语音识别的机器学习过程包括训练和测试兩个环
文档评论(0)