一种基于背景声音识别的社会情境感知方法.pdfVIP

下载本文档

10
0
约1.32万字
约 8页
2017-08-13 发布于安徽
举报
版权申诉

一种基于背景声音识别的社会情境感知方法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于背景声音识别的社会情境感知方法一种基于背景声音识别的社会情境感知方法一一种种基基于于背背景景声声音音识识别别的的社社会会情情境境感感知知方方法法 1 2 2 杨曜郭斌於志文 1 西北工业大学软件与微电子学院，西安710072 2 西北工业大学计算机学院，西安710072 摘要：随着社会需求的不断扩大及技术的不断发展，人们之间的社会交互也越来越多。理解社会交互特征并能感知用户所处的社会情境语义（如在开会、在上课），对于促进和辅助用户社会活动具有重要意义。本文从背景声音的角度对社会交互进行理解，目的是通过对背景声音差异性特征的提取，识别用户所处的社会情境。我们提出了一种基于背景声音识别的社会情境感知方法，该方法采用Melfrequencycepstralcoefficients(MFCCs，即Mel频率倒谱系数) 分析声音信号，路径搜索限制和搜索过滤的改进DynamicTimeWarping(DTW)算法作为识别器。通过对11种社会情境背景声音的采集和识别，证明本算法能有效识别用户所处的社会情境，且其运算效率与识别率比传统DTW算法有提高。关键词：社会情境感知；背景声音识别；Mel频率倒谱系数；DTW算法 1．引言1 情境感知技术最早由Schilit于1994年提出。其目标是通过传感器及其相关技术使计算机设备（特别是移动计算设备）能够“感知”用户当前的情境。情境包括多个方面，如个体情境，环境情境，社会情境等。本文主要从社会情境角度进行分析，它一般指用户 [1] 所处的社会场景或正在参加的群体活动，比如开会，派对，上课等。通过准确感知当前情境，可以了解用户所处环境情况，辅助人与人之间交互。获取人类活动信息主要依靠多种传感器（如视频传感器，音频传感器，加速度传感器等），而背景声音识别技术是近年来发展起来的一种普适技术。它通过音频传感器（如智能手机等）获取背景声音，可以实时、准确地识别人类活动中的个体和群体行为，并作出正确的理解。尽管目前已经有很多对语音特征提取和识别的技术，但是运用在背景声音识别方面还很少见，主要问题是背景声音存在很多不确定性，例如噪声影响、多种不同性质的 [2] 声音混合、不同地区用户所处同类环境也不一样，导致识别率往往达不到实际应用的要求。本文提出基于背景声音识别社会情境的方法，采用Mel频率倒谱系数提取声音特征，识别过程采用搜索路径限制和结果过滤的DTW算法，在传统的DTW算法基础上提高了识别率与计算效率，通过对11类不同的社会场景声音的识别证明其有效性。资助项目：国家自然科学基金61103063），教育部“新世纪优秀人才支持计划”(NCET-09-0079)，陕西省自然科学基础研究计划项目(2012JQ8028)，西北工业大学基础研究基金(J 联系作者：杨曜，E-mail:yangyao308@ 郭斌，E-mail:guob@ 於志文，E-mail:zhiwenyu@ 和谐人机环境2012 中国广州 2．相关工作背景声音识别活动是近年来出现的一个研究领域，作为情境感知的一部分，具有背景声音识别功能的计算终端设备更加具有人性化。目前，相关的声音特征提取一般采用LPCC， [3,4] MFCC和HCC技术，LPCC参数是线性预测系数(Linear Prediction Coefficient, LPC) 在倒谱中的表示，该特征是基于语音信号为自回归的假设，利用线性预测分析获得倒谱参数。MFCC参数将频谱转化为基于Mel频率的非线性频谱，利用了人耳听觉特性。而HCC是 [3] 在MFCC基础上发展而来。在识别算法方面，传统的DTW算法和基于高斯混合模型的方法均可以作为识别算法。在背景识别