基于语音视觉特征身份鉴别的层级结构 - 清华大学.pdfVIP

  • 4
  • 0
  • 约6.89千字
  • 约 5页
  • 2017-09-02 发布于天津
  • 举报

基于语音视觉特征身份鉴别的层级结构 - 清华大学.pdf

基于语音视觉特征身份鉴别的层级结构 - 清华大学

基于语音视觉特征身份鉴别的层级结构 吴志勇蔡莲红王志明 清华大学计算机系,北京,100084 wuzy99@mails.tsinghua.edu.cn 摘 要: 本文针对语音和视觉特征的动态关联特性,将生物特征按照层级模型来加以描述,并基于此提 出了一种身份鉴别的层级结构,将身份鉴别按照其融合的过程分成不同的级别:数据级、参数级、特征级、 模型级、和决策级。该层级结构基于语音和视觉特征提出,但是不一定非得局限于此,而是可以拓展到任 意的生物特征的鉴别过程中。 关键词: 身份鉴别,数据融合,层级结构,模态 1. 引 言 生物身份鉴别包括语音、脸像、指纹、虹膜、掌纹、签字、唇动(唇部运动)等多种特 征技术。其中,指纹、虹膜、掌纹等特征被认为终生不变,对其研究较多,技术也相对比较 成熟。而语音、脸像、唇动等富于变化,对其识别和描述相对比较困难,是目前研究的焦点。 在语音和视觉的研究中,现有的研究多采用单模态的方法,如脸像识别、说话人识别等。 实际上,人们对语言的理解是多模态的,耳朵听辨声音的同时,眼睛会去观察说话人的面部 表情,而说话时复杂多变的面部表情不仅可以传达丰富的感情,而且可以增强对语言的理解。 因此,近年来,数据融合技术,即通过一定的综合策略将多种模态结合起来进行身份鉴别开 始得到重视。其中一个著名的系统是BioID, 它使用了脸像、语音和唇动三个特征来识别身 份[1]。 本文关注的是多模态身份鉴别中数据融合及其层级结构方面的问题。目前,多模态的身 份鉴别在数据融合方面基本上都使用了一种简化的策略:各个模态分别独立进行处理,比如 首先进行特征的提取、模型的建立和匹配,然后将单模态匹配的结果通过一定的方法在决策 阶段进行融合,并得到最终的综合判决结果。这种策略处理简单,但是没有充分考虑不同特 征之间的关联关系,而这种关系在鉴别过程的不同层次阶段具有不同的内在内容。通过在不 同层级阶段对关联关系进行研究,将会对鉴别过程有更深入的了解,并提高鉴别的性能。 国外的研究机构对数据融合的层级方面进行了一定的研究。MSU 的研究者们将数据融 合分为三个层级:(1)特征抽取层(Feature extraction level ),不同模态抽取的特征进行拼接 融合,然后进行模板的匹配和决策;( 2 )决策层(Confidence level ),不同模态分别进行匹 配,得到的中间结果进行融合;( 3 )抽象层(Abstract level ),对单个模态分别进行决策, 将决策结果通过融合模块进行接受或者拒绝的二元决策融合[2]。2002 年第一期的 IEEE 多 媒体杂志(IEEE transaction on Multimedia )上关于以语音为基础的双模态识别综述中给出了 特征融合和决策融合的系统结构,对于特征融合和决策融合作了简单的说明[3]。 本文针对生物特征的特点,将生物特征按照层级模型来加以描述,并基于此提出了一种 身份鉴别的层级结构,将身份鉴别按照其融合的过程分成不同的级别:数据级、参数级、特 征级、模型级、和决策级。文中主要说明了生物特征的分层描述模型以及身份鉴别的层级结 构;然后结合语音视觉特征,集中于参数级的融合阶段,介绍了我们的初步研究工作,详细 说明了语音视觉之间的动态关联关系;最后给出了总结和讨论。 2 . 身份鉴别的层级结构 2.1 生物特征分层描述模型 不同的生物特征具有各自不同的特点,也具有不同的内在内容,但是从整体上看,不同 的生物特征,包括其数据的表示以及研究的方法等,都可以用同样的层级模型来加以描述。 生物特征的分层描述模型包括四个层级:最低层的数据级、次低层的参数级、次高层的特征 级、最高层的模型级。从低级到高级,是一个数据逐级抽象、数据表示逐级概括的过程。 图1 示意说明了生物特征的层级描述模型,右侧以语音特征和视觉特征为例,说明了每 个层级的可能包括的内容。 图 1 生物特征分层描述模型 以语

文档评论(0)

1亿VIP精品文档

相关文档