一种识别说话者新方法.docVIP

下载本文档

3
0
约4.57千字
约 9页
2018-11-03 发布于福建
举报
版权申诉

一种识别说话者新方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种识别说话者新方法

一种识别说话者新方法　　摘要：在能够自动识别视频中的说话者的系统中，大部分采用的是声音和唇部运动相结合的方法。文中则采用了另一种方法有效地达到了目的，即通过检测人体头部和手部的运动来鉴别说话者。基于演讲者在说话时通常会伴有头部运动或是手部运动，该方法既能实现说话者的检测，又能避免由于观测点过远而导致无法判断人唇部运动的局限性。在系统的实施过程中，运用了多种图像处理方法，并且对三帧差运动法做出了改善，使其能更高效、更准确地检测到头部和手部的运动。经过多个不同的视频测试后，本系统的F1 score 高达91.91%，从而验证了该系统的可行性。　　关键词：图像处理；脸部检测；手部检测；运动检测； F1 score 　　中图分类号：TP391.4 文献标识码：A文章编号：2095-2163（2013）06-0085-03 　　0引言　　近年来，图像处理技术飞速发展并且进入到了日常生活的应用领域中。例如，运用了脸部识别技术的数码相机，可以自动识别人脸的位置。很多和本文研究相关的成果和算法在近年来均得到了广泛的应用并且取得了实质性的成功。本文旨在通过检测人脸或人手的运动来判断被观察者是否在说话，而为了实现这一功能，本文详述了系统在实施时所需要的算法，并对不同情况下的测试结果进行了说明。　　1算法　　1.1肤色区域检测　　分割出图像中的肤色区域，并且在该区域中检测人脸和手部能够提高算法的效率和准确率。利用公式（1），可以将RGB色彩空间转换为更易于分割肤色的YCbCr色彩空间。　　在YCbCr色彩空间中，肤色像素聚集在一个类似高斯模型的小区域中[1]。利用该特性，每个像素点属于肤色的概率都可以通过高斯模型计算而得到，见公式（2）[2]。在公式（2）中，m代表均值，C代表了协方差矩阵，x=（Cb，Cr）T。　　P（Cb，Cr）=-exp[-0.5（x-m）TC-1（x-m）]（2）　　通过公式（2）的计算，一个数字图像可以转变成肤色似然图像。在肤色似然图像中，肤色的区域将会比非肤色区域更加明亮。这样，完成了肤色的初步分割。接下来，通过调用自适应阈值，肤色似然图像将转换成二值图像。在二值图像中，每个代表肤色的像素，都会转变成值为1的白色像素点。同时，非肤色区域的像素点会转化成值为0的黑色像素点。此时，实现了肤色的分割。　　另外，为了去除二值图像中的噪声，引用了形态学处理方法。其中包括腐蚀、膨胀、开运算和闭运算。开运算可以将小的噪声去除并且减弱单独物体之间的连接。闭运算则可以消除小的黑洞，同时将连接的物体连接得更为紧密。　　1.2人脸检测　　人脸检测部分应用了两个算法，第一个是应用广泛的Viola-Jones算法，第二个则是通过判断脸部的整体特征来识别人脸。Viola-Jones 算法基于外观特征且融合了简单的图像特征集和多种方法来进行人脸检测。在MATLAB R2012a版本中，Viola-Jones 算法集合于Computer Vision System Toolbox中，可以直接调用。但是在检测到的结果中，可能包含非人脸区域。因此，在第二种算法中，采用了Compactness、 Solidity和Orientation 三个连通算子来验证检测到的结果并且去除非人脸区域。其中的判断标准依据连通区域的面积、周长、最小包围盒的Dx与Dy[3]。　　人脸和椭圆形相类似。公式（3）给出了Compactness算子的定义。圆形物体可以依据该公式确定得到。对于该算子，大于其阈值的区域，可以认为是人脸区域。小于其阈值的，将会从人脸检测结果中移除。　　Compactness=Ap2（3）　　公式（4）中定义的Solidity，可以用来衡量一个连通区域在其最小包围盒中的面积占用率。该算子可以用于进一步的人脸检测验证。小于该阈值的区域将会从人脸检测结果中移除。　　Solidity=ADxDy（4）　　人脸的验证则是依据人脸的方向值总是波动在一个固定的取值区间。很多的区域将会因为越过了取值区间而被移除。算子Orientation的定义在公式（5）中给出。　　Orientation=DyDx（5）　　在经过一个包含了10 000个肤色像素点和10 000个非肤色像素点的训练集合的测试后，三个算子的阈值为：Compactness = 0.025； Solidity = 0.521 8； Orientation range=090 to 2.10[3]。　　1.3手部检测　　在这一阶段，手部的检测基于手的大小和位置。例如，通常，总会认为人手比脸的面积要小。而且，在检测的过程中，通过比较相邻的帧，可以实现进一步的验证。由于人手的特征变化各异，本文中采用的假设方法将大大简化程序