服务机器人语音唇读人机交互技术研究.pdf

摘要 摘 要 本论文围绕助老助残服务机器人课题,以智能轮椅为平台,以语音唇读人 机交互方式作为研究对象,重点对唇读识别问题作了深入研究。对目前唇读技 术存在的问题作了分析,对各个关键环节提出了相应的解决思路,包括人脸检 Of 测和ROI(RegionInteresting)定位方法、唇读特征提取算法、唇读识别模型 以及语音唇读的融合算法,涵盖了语音唇读系统的全部过程。通过大量的实验 和研究,我们取得了一些有意义的成果,所有研究成果都在特定人双模态数据 库上得到了验证。最后,我们设计了一个实时在线语音唇读人机交互系统,该 系统包括软件和硬件两部分,采用上下位机通讯的方式实现了对智能轮椅进行 语音唇读控制。本论文的主要研究成果如下: 针对唇读人机交互中的人脸检测和ROI定位问题,首次提出了一种新颖的 自适应ROI定位算法。该算法通过选择HSV颜色模型排除了照度分量,利用自 适应算法克服了不同个体在肤色和唇色上的差异性,而且同时完成了人脸和ROI 定位。为增强算法的鲁棒性,又在包含各色人种的Freret数据库上进行了算法验 证。实验表明该算法总体性能指标优于其它ROI定位算法。 通过对现有各种唇读特征提取方法进行比较,首次提出了一种基于LDAO (LinearDiscriminantbasedon Analysis Object)的唇读特征提取算法。在语音与 Discriminant 唇读识别应用中传统的LDA(Linear Analysis)算法一般以音节、 H/VIM状态等基元为类别,获得的最具判别力的特征投影主轴和识别率不直接相 关,影响了识别率。LDAO算法以待识别对象为类别进行线性判别分析,在理 论上保证了唇读特征矢量向最具判别能力的主轴投影,基于唇读数据库的实验 证明,该算法明显优于现有各种唇读特征提取算法。 针对HMM、ANN模型在模式分类中固有的缺陷,采用了基于支持向量机 VectorMachine,SVM)的唇读识别方法。SVM基于最小结构风险的分 (Support 类原理,一方面解决了小样本下的模式分类问题,另一方面克服了传统HMM分 类器诸多不合理的前提假设,从理论上来说,在有限的样本下SVM应该具有最 优的分类性能。针对SVM在实际应用中有待解决的问题,如要求输入特征维数 固定,这个条件极大地限制了其处理动态时间序列的能力,本文对现有的主要 摘要 特征序列规整方法进行了实验比较。实验证明,在有限样本的情况下采用有效 的特征规整方法后,SVM识别率优于传统的HMM。 关于语音唇读融合识别问题,提出了一种基于耦合隐马尔可夫模型(Coupled HideMarkovModel,C}玎、心嗄)的异步信息中期融合识别策略。该策略既考虑到了 语音唇读信息在时间上的相关性,又解决了两个信息流之间的异步问题。为简 化计算,通过限制信息流的状态数量和限制信息流之间的异步程度简化了模型 结构。此外,将耦合HMM等效变换为一种双流HMM后,利用传统HMM的 算法解决了耦合HMM训练与识别问题。在语音唇读双模态数据库上的实验证 明,该算法优于同步早期融合法和同步双流HMM融合法。 最后,我们建立了国内首个孤立命令词语音、唇读人机实时交互系统,包 括软件和硬件设计两部分。考虑到视频数据流的容量过大以及图像实时处理的 要求,采用上下位分布式系统结构,上位机采用PC机完成语音、视频图像的采 集以及运算,下位单片机实现对轮椅的控制。设计了完整的软件流程,并给出 了硬件接口部分电路的设计方案,为今后唇读研究提供了一个实验平台。 关键词:人机交互,唇读,语音,特征提取,信息融合 Ⅱ ABSTRACT ABSTRACT for Withtheaimof servicerobotthedisableandthe and realizing

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档