network15.doc

下载文档 降价啦

3
0
约1.08万字
约 8页
2016-04-02 发布于湖北
举报
版权申诉
保障服务

network15.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

network15.doc

人工神经网络方法在三维真实感声音生成中的应用与实现张琼石教英浙江大学CADCG国家重点实验室杭州 310027 摘要虽然许多研究人员已认识到三维真实感声音在未来人机交互中的重要地位，但是三维真实感声音在计算机领域的真正实现仍有不少障碍有待克服。基于对声学及心理声学最新研究成果的调查和分析，我们在该领域引入了人工神经网络方法，并在一改进神经网络模型的基础上实现了二种用于产生三维真实感声音的具体算法。实验结果表明了以上方法的有效性和正确性。关键词：人工神经网络，三维真实感声音一. 概述近年来，有关三维真实感声音的研究吸引了越来越多人的兴趣，许多多媒体和虚拟现实系统都将其作为系统的关键特性之一。在计算机领域，所谓的三维真实感声音，是相对于在人机接口中广泛使用的缺乏方向感和距离感的单声道声音而言的[1]。虽然声学和心理声学的大量研究揭示，人的听觉空间定位感知特性受到许多因素的影响；但是一些学者的最新结果也表明，人的双耳滤波效应(pinnae filtering)在听觉定位过程中扮演着极为重要的角色[2][3]。传统的Duplex理论企图仅依靠声音传达至聆听者双耳的时间差(ITD)和声级差(IID)来解释人类的听觉感知过程。但事实证明，该理论有着严重缺陷，比如它不能阐明与双耳间距相等的空间两点的定位问题[4]。在声学领域，人们将声音从声源传至双耳耳鼓处的变换函数称之为与头部相关的传递函数(HRTF : Head-Related Transfer Function)。现在，该函数作为生成三维真实感声音的关键因素而广知。一般说来，利用HRTF来生成三维真实感声音有多种具体途径[1]。根据不同的应用场合，我们可选择合适的方法。在本文中，我们首先分析并指出了当前在利用HRTF生成三维真实感声音过程中存在的一些弊病和不足。然后基于一改进的神经网络模型，提出了二种用于产生三维真实感声音的具体方法。初步的实验结果表明，我们设计的神经网络模型及二种方法是非常有效的。二. HRTF的实现及存在的不足我们知道，所谓的HRTF可以看成是声音从声源传播至聆听者耳鼓处的变换函数。由于聆听者个体和声音传播过程中涉及因素的多样性，我们很难用一个统一的解析表达式来定义HRTF。现阶段一般都是采用实验测量的方法来获取表征HRTF的部分脉冲响应数据，这其中包括二方面的内容：一部分为声音的幅度响应；另一部分为声音的相位响应。虽然在虚拟音频系统中应用HRTF被视为一项关键技术，但一般学者都认为，在人的听觉空间定位过程中，声波到达聆听者双耳的时间差要比单耳的HRTF相位响应发挥着更重要的作用。因此，许多研究人员在实现时通常将注意力集中在HRTF幅度响应上；并且使用声波(包括各种频率)到达双耳的平均时间差来取代HRTF的相位响应。一般认为[5][6]，主要有三个因素决定HRTF：声波频率；声源位置；聆听者。我们特别注意到声波从声源传递至人耳耳鼓过程中的变化不仅是。声源位置及声波频率的函数，而且不同的人其HRTF响应也不同。不过，据我们调查所知，目前绝大多数的虚拟音频系统由于不可能面向特定的用户，所以在实现时一般不使用单个人的HRTF测量数据，而是使用经过平均(generalization)处理的某个人口集的HRTF数据[7][8]。这样一来虽然简化了HRTF的实现过程，但同时也应该看到，在不同的场合，使用平均的HRTF数据导致的聆听效果可能会有很大的差异。而且，对一些特殊的用户，比如听觉障碍者，我们可能希望使用某组特定的数据。由此，我们认为，现在许多虚拟音频系统的一个主要缺陷就在于：它不能根据应用环境和使用对象的不同，动态地通过学习来获取HRTF参数，以适应多种场合的复杂需求。另外，平均的HRTF数据仍然存在着数据量偏大，使用不方便等问题。而且，由于我们不可能通过测量的方法来获取空间所有位置的HRTF数据，所以，有些人试图在其中引入插值的方法。但如声学的研究成果所揭示的那样，HRTF及其自变量之间存在着相当复杂的非线性关系，一般的线性插值途径所得结果并不理想。[9]中也指出插值方法存在着缺点。为了克服以上不足，我们设计并实现了一改进的人工神经网络模型，应用于虚拟音频系统，取得了较好的结果。三. 改进的人工神经网络模型我们在三维真实感声音生成领域引入人工神经网络方法，其主要目是实现： ①自学习功能这就是说，通过网络训练，我们能够重置系统的HRTF数据，以满足多种场合的要求。 ②非线性逼近功能这就是说，利用人工神经网络的非线性逼近能力，在一些离散测量值的基础上，我们能够获取空间任意位置的HRTF数据。另外，我们还试图尽可能地加速基于神经网络模型的系统的运行速度。 I. 基本设想一些研究者[10][