人工智能应用概论教学课件：第5章-智能语音技术.pptxVIP

下载本文档

16
0
约6.96千字
约 38页
2021-11-08 发布于浙江
举报
版权申诉

人工智能应用概论教学课件：第5章-智能语音技术.pptx

1、本文档共38页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《人工智能应用概论》第5章智能语音技术PART1智能语音技术的概念【案例】《李易纯合成音28秒.mp4创新中国》是由中央电视台联合深圳市委宣传部于2018年1月22日推出的一部纪录片，该片主要讲述了最新科技成就和创新精神，用鲜活的故事记录中国伟大的创新实践。这部聚焦前沿科学突破与科技热点，以鲜活故事记录当下中国创新实践的纪录片，还以一种特殊的方式联结科技与人文：利用智能语音和人工智能技术，让已逝的著名配音艺术家李易老师的声音重现荧幕，完成了整部纪录片的配音。这也是全球第一部全篇采用人工智能配音的纪录片。1.1 智能语音技术的概念 1.1.1 自动语音识别（Automatic Speech Recognition,ASR) 广义上来讲智能语音技术有各种各样的定义，以上是常见的一些热门的场景。本书重点介绍语音识别技术（ASR）。自动语音识别是指让机器识别人说出的话，即将语音转换成相应的文本内容，然后根据内容信息执行人的某种意图。自动语音识别又称自动言语识别,这项任务涉及将输入声学信号与存储在计算机内存的词表（语音、音节、词等）相匹配，而匹配个别语词的标准技术则要用输入信号与预存的波形（或波形特征/参数）相比较（模型匹配）。1.1 智能语音技术的概念 1.1.2 声纹识别（Voiceprint Recognition,VR) 声纹识别，生物识别技术的一种，也称为说话人识别，包括说话人辨认和说话人确认。声纹识别就是把声信号转换成电信号，再用计算机进行识别。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要辨认技术，而银行交易时则需要确认技术。声纹识别有两种应用场景: 1:1验证(简称验证, Verification), 比如显示为女朋友/老婆的电话号打来, 接听之后发现声音不是她, 那就让人紧张; 1:n验证(又称识别, Identification), 比如陌生电话打来, 对方说一句字面上没有任何意义的老王, 是我啊, 如果真是熟人, 你就能很快辨得TA的身份, 如果认为不是, 那就有可能是某省的人打来的了。1.1 智能语音技术的概念 1.1.3 语音合成（Text to Speech,TTS)语音合成，又称文语转换（Text to Speech）技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。1.1 智能语音技术的概念 1.1.4 机器翻译源语言-目标语言。产品形态主要有三大类；翻译机、翻译手机和翻译耳机。1.1 智能语音技术的概念 1.1.5 对话机器人对话机器人历史悠久，从1966年MIT的精神治疗师机器人ELIZA到现在已有半个世纪。针对用户不同类型的问题，常见的对话机器人有如下几种类型：检索型单轮对话机器人：简单问题的提问和回答；知识图谱型机器人：知识图谱型机器人（KG-Bot，也称为问答系统），利用知识图谱进行推理并回答一些事实型问题。任务型多轮对话机器人：任务型多轮机器人（Task-Bot）通过多次与用户对话交互来辅助用户完成某项明确具体的任务。闲聊型机器人：真实应用中，用户与系统交互的过程中不免会涉及到闲聊成分。闲聊功能可以让对话机器人更有情感和温度。1.1 智能语音技术的概念 1.1.6 声学事件检测声学事件检测是指对连续音频信号流中具有明确语义的片段进行检测与标定的过程。它是机器对环境声音场景进行识别和语义理解的重要基础，并将在未来类人机器人声音环境的语义理解、无人车行车周边环境的声音感知等方面发挥重要的作用。1.2 语音识别发展历程概述语音识别技术的研究起始于20世纪50年代，由于受到当时计算能力的限制，直到20世纪70年代才出现了一些实验性研究成果。自21世纪以来，语音识别技术取得了许多突破，并得到了广泛的应用。当前，尽管语音识别技术相对成熟，但在大规模语音语料的实时采集与精准标注、特定语种的音素集设计与优化、语音识别的鲁棒性增强等方面依然面临诸多难题。1.2 语音识别发展历程 1952年，美国贝尔实验室的Davis等人率先研制出了一个针对特定人的独立数字识别系统，该系统能够成功识别10个英语数字1956年，Olson和Belar开发出的系统能够识别10个不同音节，1959年Fry和Denes开发的识别系统能够识别9个辅音和4个元音，他们利用模板匹配技术和谱分析技术进一步改善了音素的识别精度。同期，在美国麻省理工学院（MIT)林肯实验室设计的ForgieandForgie元音识别系统利用带通滤波器能够针对非特定人识别10个元音。1.2 语音识别发展历程 20世纪60年代初，Faut和Stevens等人对语音生成的理论方法进行了探索性研究。1962年，东京大学的Doshita和Sakai通过分析语音的过零率识别不同的音素，设计开发了一种硬件