基于语音视觉特征身份鉴别的层级结构 - 清华大学.pdfVIP

下载本文档

4
0
约6.89千字
约 5页
2017-09-02 发布于天津
举报

基于语音视觉特征身份鉴别的层级结构 - 清华大学.pdf

基于语音视觉特征身份鉴别的层级结构 - 清华大学

基于语音视觉特征身份鉴别的层级结构吴志勇蔡莲红王志明清华大学计算机系，北京，100084 wuzy99@mails.tsinghua.edu.cn 摘要：本文针对语音和视觉特征的动态关联特性，将生物特征按照层级模型来加以描述，并基于此提出了一种身份鉴别的层级结构，将身份鉴别按照其融合的过程分成不同的级别：数据级、参数级、特征级、模型级、和决策级。该层级结构基于语音和视觉特征提出，但是不一定非得局限于此，而是可以拓展到任意的生物特征的鉴别过程中。关键词：身份鉴别，数据融合，层级结构，模态 1．引言生物身份鉴别包括语音、脸像、指纹、虹膜、掌纹、签字、唇动（唇部运动）等多种特征技术。其中，指纹、虹膜、掌纹等特征被认为终生不变，对其研究较多，技术也相对比较成熟。而语音、脸像、唇动等富于变化，对其识别和描述相对比较困难，是目前研究的焦点。在语音和视觉的研究中，现有的研究多采用单模态的方法，如脸像识别、说话人识别等。实际上，人们对语言的理解是多模态的，耳朵听辨声音的同时，眼睛会去观察说话人的面部表情，而说话时复杂多变的面部表情不仅可以传达丰富的感情，而且可以增强对语言的理解。因此，近年来，数据融合技术，即通过一定的综合策略将多种模态结合起来进行身份鉴别开始得到重视。其中一个著名的系统是BioID, 它使用了脸像、语音和唇动三个特征来识别身份[1]。本文关注的是多模态身份鉴别中数据融合及其层级结构方面的问题。目前，多模态的身份鉴别在数据融合方面基本上都使用了一种简化的策略：各个模态分别独立进行处理，比如首先进行特征的提取、模型的建立和匹配，然后将单模态匹配的结果通过一定的方法在决策阶段进行融合，并得到最终的综合判决结果。这种策略处理简单，但是没有充分考虑不同特征之间的关联关系，而这种关系在鉴别过程的不同层次阶段具有不同的内在内容。通过在不同层级阶段对关联关系进行研究，将会对鉴别过程有更深入的了解，并提高鉴别的性能。国外的研究机构对数据融合的层级方面进行了一定的研究。MSU 的研究者们将数据融合分为三个层级：（1）特征抽取层（Feature extraction level ），不同模态抽取的特征进行拼接融合，然后进行模板的匹配和决策；（ 2 ）决策层（Confidence level ），不同模态分别进行匹配，得到的中间结果进行融合；（ 3 ）抽象层（Abstract level ），对单个模态分别进行决策，将决策结果通过融合模块进行接受或者拒绝的二元决策融合[2]。2002 年第一期的 IEEE 多媒体杂志（IEEE transaction on Multimedia ）上关于以语音为基础的双模态识别综述中给出了特征融合和决策融合的系统结构，对于特征融合和决策融合作了简单的说明[3]。本文针对生物特征的特点，将生物特征按照层级模型来加以描述，并基于此提出了一种身份鉴别的层级结构，将身份鉴别按照其融合的过程分成不同的级别：数据级、参数级、特征级、模型级、和决策级。文中主要说明了生物特征的分层描述模型以及身份鉴别的层级结构；然后结合语音视觉特征，集中于参数级的融合阶段，介绍了我们的初步研究工作，详细说明了语音视觉之间的动态关联关系；最后给出了总结和讨论。 2 ．身份鉴别的层级结构 2.1 生物特征分层描述模型不同的生物特征具有各自不同的特点，也具有不同的内在内容，但是从整体上看，不同的生物特征，包括其数据的表示以及研究的方法等，都可以用同样的层级模型来加以描述。生物特征的分层描述模型包括四个层级：最低层的数据级、次低层的参数级、次高层的特征级、最高层的模型级。从低级到高级，是一个数据逐级抽象、数据表示逐级概括的过程。图1 示意说明了生物特征的层级描述模型，右侧以语音特征和视觉特征为例，说明了每个层级的可能包括的内容。图 1 生物特征分层描述模型以语

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于语音视觉特征身份鉴别的层级结构 - 清华大学.pdfVIP