- 1、本文档共71页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第5章语音处理
CONTENTS目录语音处理概述及应用场景01基本原理及技术发展现状02案例体验03
语音处理概述及应用场景5.1语音处理概述01语音处理应用场景02
语音处理概述01会学习机器学习、深度学习会看计算机视觉会听、会说语音处理
语音处理概述01微信语音转文字手机助手Siri智能音箱
语音处理概述百度百科定义:语音处理是用以研究语音发声过程、语音信号的统计特性、语音自动识别、语音机器合成以及语音感知等各种处理技术的总称。语音信号处理是一门多学科的综合技术:它以生理、心理、语言以及声学等为基础,以信息论、控制论、系统论作为指导,通过应用信号处理、统计分析、模式识别等现代技术手段,发展成为一门新的学科。01
语音处理概述01语音输入语音识别语言理解语音合成语言生成对话管理texttextcontextaction语音交互系统架构图语音输出任务执行voicevoiceaction
语音处理概述01视频来源:发展史
语音处理概述01技术发展史1980年以前,基于模板匹配的技术思路。1980年到2009年,基于统计模型的技术思路,高斯混合模型/隐马尔可夫模型(GMM-HMM)统治时期。2010年后,深度学习技术应用,框架升级DNN-HMM,2015年,“端到端”技术兴起,2017年微软在Swichboard上达到词错误率5.1%,语音识别的准确性首次超越了人类(限定条件下)。
语音处理应用场景02语音输入法普通人打字速度是每分钟60字左右,讲话每分钟一般是150字左右。科大讯飞的语音输入,最高速度能够达到1分钟400字,不仅支持中文录入、中文转英文等功能,还支持粤语、四川话、东北话、上海话、闽南语等多种方言输入。讯飞搜狗百度
语音处理应用场景02智能助理
语音处理应用场景02智能音箱小米小爱天猫精灵华为小艺HomePod
语音处理应用场景02智能家居智能家居领域,语音控制已经广泛应用于智能音箱、语控APP等产品。视频来源:/v?pd=wisenaturalvid=1864190843981970694
语音处理应用场景02智能车载助手中国的智能驾驶舱市场规模有望在2025年达到1196亿元。智能车载助手是智能驾驶舱的核心应用,由于驾驶环境的要求,车载系统以语音交互为主。主要应用场景:1)多媒体娱乐方面:播放音乐、电台或视频的能力,是智能语音助理最常见的用例;2)车辆控制功能方面:包括调节车内空调温度,调整车窗,调整后视镜,甚至可以切换驾驶模式;3)智能导航方面:系统会理解驾驶员的语音指令,并提供有效的导航服务; 4)驾驶行为监控提醒方面:如果发现驾驶者的驾驶时间过长,或是频繁出现压线行驶和紧急刹车等情况,汽车也会及时的给予驾驶者语音反馈,使其保持清醒;5)车况监控提醒方面:实时的监控可以帮助驾驶者发现汽车的问题,并及时的提醒驾驶员,避免意外的发生。
语音处理应用场景02智能客服智能客服整合语音识别、语音合成、声纹识别、自然语言处理等能力,智能引导用户并响应用户需求。成功应用于电信、金融、电力、交通和教育等行业,如移动、联通、电信、工商银行、中国银行等。
语音处理应用场景02声纹识别声纹识别技术能够提取每个人独一无二的语音特征,实现“听音辨人”,在涉及说话人身份识别的场景中具有重要应用价值。在公安司法领域,可以用声纹识别技术处理电话骚扰、绑架、诈骗、勒索等声音信息;在门禁和考勤系统中,可以通过提取语音中的声纹特征进行登记和签到;在金融行业,可以采用声纹识别技术对电话银行或远程证券交易中的客户进行身份确认;在刑侦领域,可以通过声纹识别技术判断监听电话中是否有嫌疑人出现。
语音处理应用场景02在公检法领域应用智能语音主要功能是用语音提供公共安全服务,如语音识别电信诈骗、语音筛选犯罪人、语音提取接警信息等。另一个功能则是记录,包括但不限于一切需要文书的领域,如庭审笔录生成等、公安笔录生成等。
语音处理应用场景02智能服务机器人智能翻译机智慧医疗……
语音处理应用场景02正在步入万物互联、万物智能的时代语音交互架起人与物联网、互联网服务间的桥梁——任何时间、任何地方、任何设备
基本原理及技术发展现状5.2关键技术01语音识别02语音合成03
关键技术01语音交互系统流程语音输入语音识别语言理解语音合成语言生成对话管理texttextcontextaction语音输出任务执行voicevoiceaction
关键技术01语音识别 -(深度学习)算法复杂度与实时率的平衡 -拥有的真实数据规模和覆盖面 -模型训练效率(迭代效率) -对各种场景的快速适应,如唤醒词 -语音分离——鸡尾酒会问题语音合成 -技术比较成熟 -生产力在于根据业务需求快速定制新的声音理解与对话——自然语言处
您可能关注的文档
- 人工智能技术应用导论第2.2章 Python语言基础.pptx
- 人工智能技术应用导论第2.3章 Python语言基础.pptx
- 人工智能技术应用导论第3.1章 机器学习与深度学习.pptx
- 人工智能技术应用导论第3.2章 机器学习与深度学习.pptx
- 人工智能技术应用导论第1章 人工智能概述.pptx
- 人工智能技术应用导论第2.1章 Python语言基础.pptx
- 碧桂园沪苏区域泗阳项目启动会.ppt
- 语文(山西卷)考试版A4.docx
- 专题43计算题压强浮力类(一)2023年中考物理重难点题型专题突破.docx
- 中国的主要江河与流域.pptx
- 第38讲总体集中趋势的估计总体离散程度的估计3种常考题型(原卷版).docx
- 易错点04孟德尔定律伴性遗传及人类遗传病-2023年高考生物典型易错题辨析与精练(原卷版).docx
- 专题01米和厘米-2023年二年级数学寒假专项提升(人教版).docx
- 专题03名著阅读过关训练-2022-2023学年八年级语文下学期期末备考与暑假复习过关梳理训练2.docx
- Unit8-2023-2024学年七年级英语上册单元速记巧练(人教版)(原卷版).docx
- 第5章导数及其应用(基础常考易错压轴)分类专项训练.docx
- 六年级上学期期末备考完形填空真题汇编三.docx
- 黄金卷07-2023年中考化学全真模拟卷(深圳专用)(考试版).docx
- 11力学基础多选题2023中考物理各题型专项复习讲义.docx
- 第08讲氮及其重要化合物(原卷版).docx
文档评论(0)