人工智能技术及应用课件第3、4章基于人工智能的语音识别基本理论与技术、基于人工智能的大数据挖掘.pptx

下载文档

2
0
约2.67万字
约 76页
2024-02-03 发布于山东
举报
版权申诉
保障服务

人工智能技术及应用课件第3、4章基于人工智能的语音识别基本理论与技术、基于人工智能的大数据挖掘.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

3.1语音识别概述3.2语音识别基础知识3.3语音识别基本原理3.4传统语音识别方法3.5基于人工智能的当代语音识别方法3.6语音识别的应用3.7语音识别技术的未来展望3.1语音识别概述图像识别技术的发展，使智能体具备了视觉系统，拥有了初步的视觉能力。然而，人们的最终目的是构建一个完整的，拥有成套视觉、听觉、嗅觉、触觉，甚至味觉功能的类人智能体。语音识别最早的设想是建立一种人与智能体之间能够进行交互的方式。也就是，智能体具有能够理解人类语言的能力，并且能够根据人类所述输出相应的文本或动作等。如何让智能体拥有听觉能力，成为了人工智能领域一个重要的研究方向。基于以上的设想，科学家们于20世纪50年代开启了语音识别的研究。历经半个多世纪的发展，语音识别技术从基于传统方法，再到近年来受到人工智能与深度学习的启发和影响采用深度学习方法，新型语音识别技术开始逐步发展起来，并且已经成功地在市场上投入使用。有些新兴智能产业正是在语音识别技术的引领之下发展壮大的。因此，语音识别已经成为人类社会走向智能化的关键技术之一。3.2语音识别基础知识3.2.1人耳的结构与声音在构建智能体的听觉系统之前，了解最基本的声学与人耳结构的生理知识是非常必要的。声音是由于物体振动使周围的空气产生了疏密变化，从而引起的一种叫做声波的振动。声波又经过不同的介质，传入人耳。图3.1为人耳结构图。人耳是分析与处理声波的重要器官，其中人耳的耳廓能够搜集外界不同类型的声波，这些声波经过外耳道与中耳为界的鼓膜，引起鼓膜的振动，产生与获得的声波频率相一致的振动频率，鼓膜引起的振动又反馈给了鼓室，鼓膜的作用是把声波所携带的能量信息进行放大。此后，这些被放大之后的信息又经过听小骨的作用，传入了内耳；内耳的主要功能是产生与先前被放大后的信息对应的神经信号，这些神经信号最终传入人类的大脑，供大脑处理，成为人类可以理解的词语或音乐等不同信息。我们在物理课中已经学习过，表征声波有两个极其重要的参数，分别是频率和振幅。频率是单位时间内某个物体完成振动的次数，可以通过如下数学表达式进行描述：式中，f是频率，单位为赫兹(Hz)；T是周期，单位为秒(s)。图3.2所示是一个信号在振幅相同的情况下，频率分别为1Hz、3Hz、6Hz的波形图。简而言之，频率表示了人耳对各种类型的声音的敏感程度。人耳能够分辨的频率范围是有限的，其范围为20?Hz～20?000?Hz。当频率范围处于1000?Hz～3000?Hz时，人耳对此段频率的声音最为敏感。对于猫狗等其他动物而言，它们对声音的敏感程度往往强于人类，也就是可分辨的频率范围比人类要宽得多。图3.3所示是人类与动物的听觉频率分布对比图，狗的耳朵能够分辨的频率范围是15?Hz～50000?Hz，而猫耳的最高分辨频率高达65?000?Hz。这表明它们能够感知更宽频段的声音，与人类相比，更能够察觉出环境中声音的细微变化。振幅是表示振动范围和强度的物理量(单位：dB)，也就是影响音量大小的关键因素。图3.4所示是频率相同但振幅不同的两个声波信号示意图。3.2.2声波的获取与存储——模拟方法理解了人耳和声学基础知识之后，还需要学习声波以及声学信息存储的方法，其目的是便于语音数据的分析与处理。人们早期是采用模拟方法记录声学信息的，主要的原理是根据声音在空气中的振动强度不同转化为相对应大小的电信号，再通过其他技术将这些电信号整合为一段连续的信号，并用一些传统物理方法存储在相应的存储设备中，其中磁带是早期最常见、使用最广泛的存储设备(见图3.5)。在其塑料薄膜上附着一层磁性涂料，根据电磁原理，电流可以改变磁场的强弱和方向，因此磁带上形成了极性不同、磁场强度各异的小磁场。先将声波中所携带的声学信息利用相应的传感器转换为电信号，然后利用电磁原理实现声波信息的存储。使用传统方法从声波中获得的声学信息是连续变化的物理量，严格意义上称其为模拟信号。图3.6所示是一段模拟信号的时域波形图。模拟信号的分析与处理对设备的要求较高。当对模拟信号进行复杂分析与处理时，往往需要多个电路元器件共同作用，从而增加了信号处理电路的研发和制造成本。除此之外，模拟信号的抗干扰能力也较差，例如我们听到的调幅广播有很强的噪声，而老式的阴极摄像管电视机遇到信号干扰时，播出的画面很容易出现“雪花”现象。图3.7所示是一台老式电视机在遇到信号干扰之后出现的“雪花”现象。因此环境的噪声干扰对采用模拟信号存储声波的相应电信号方法具有较大的影响。图3.8展示了y(t)?=?sin(t)函数形式的信号在无噪声与有噪声干扰时的不同表现。左侧图中的函数图像在无噪声干扰时非常平滑，没有毛刺；右侧图中的函数图像在噪声干扰下，波形产生了变形并带有毛刺。3.2.3声波的获取与存储——数字方

您可能关注的文档

文档评论（0）

balala11 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

人工智能技术及应用课件第3、4章基于人工智能的语音识别基本理论与技术、基于人工智能的大数据挖掘.pptx