基于音频信号的检索定位自适应方法.pdfVIP

基于音频信号的检索定位自适应方法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于音频信号的检索定位自适应方法.pdf

第29卷第6期 泰 山 学 院 学报 V0】.29 NO.6 2007年11月 JOURNAL OF TAISHAN UNⅣERSI rY Nov. 2oo7 基 于 音 频 信 号 的检 索 定 位 自适 应 方 法 刘 磊 ,杨 鉴 ,宋晓玲。 (1.泰山学院 物理与电子科学系,山东泰安 271021;2.云南大学信息学院,云南 昆明 650091; 3.泰山职业技术学院,山东泰安 271000) [摘 要] 音频信息的检索是多媒体检索技术中的一个重要方面。本文讨论一种基于音频信号的广告 条目检索和定位的一种自适应方法,它利用短时平均过零率和互相关函数从实时音频数据流中快速检测和 定位广告条目. [关键词] 短时平均过零率;互相关函数;实时音频数据流 [中图分类号] 045 [文献标识码] A 【文章编号] 1672—2590(2007)06—0040—04 0 引言 音频信息检索是数字化信息检索的迫切要求.计算机检索音频片断,可以使用基于标题或文件名的 文本标注方式,但基于文件名和文本描述的不完整性和主观性,人们很难找到具体要求的音频片断.此 外,该类技术不能支持实时音频数据流以及基于内容的或听觉特征的检索,在一些具体应用领域中有很 大的局限性. 本文以音频广告为例提出了一种新的在时域中分析、检测和定位实时音频数据流的自适应方法,并 在Maflab6.5上编程运行取得了预期的效果. 1 时域音频特征及提取方法 对声音信号一般采用短时分析,信号流的处理用分段或分帧来实现.一般每秒的帧数约为33 100,视实际情况而定.分帧可以是连续的,也可以采用交叠分段的方法,可用移动的有限长度窗口进行 加权的方法来实现.在时域中,音频特征提取以一些主观或客观的音频特征为基础。其主要计算方法有 短时平均能量、短时平均幅度以及短时平均过零率等.短时时域处理方法的主要优点是直观、简单,处理 结果能够描述音频信号的某些主要特征. (1)短时平均能量:声音信号的能量分析是基于声音信号能量随时间有相当大的变化.短时平均能 量说明了音频信号的强度,可用于静音检测。例如对于一个音频信号,如这个音频信号中的某一短时帧 的平均能量低于一个事先设定的阈值,则可判定该短时帧为静音.其加窗后的短时平均能量定义为: 蕾 E = ∑ (, )h(n一,n)= (n)*h(n) … ∞ 其中,h(n)= (n); (n)为窗函数;*表示线形卷积和. (2)短时平均幅度:由于En值是通过平方计算出来的,所以它对高电平信号非常敏感,为此可引入 另一种度量音频信号幅度变化的函数,即短时平均幅度Mn.它用计算加权的信号绝对值之和来代替平 方和,因而这种处理比较简单.其定义为: [收稿日期]2Oo7一lO—l9 [作者简介]刘磊(1977一),男,山东莱芜人,泰山学院物理与电子科学系讲师 第6期 刘 磊等:基于音频信号的检索定位自适应方法 41 M = ∑ l (,n)l W(11,一, )=l (11,)l*W(n) (3)短时平均过零率:平均过零率是指单位时间内信号值通过零值的平均次数。一定程度上说,它 说明了平均信号频率.当离散的时间信号的相邻的两个取样具有不同的符号时,便出现“过零”现象.对 于窄带信号,平均过零率可以比较精确的反映其特征,而在宽带情况下是比较粗略的.为了反映时变信 号的特征,对音频信号进行分帧处理。其定义为: = ∑ l sgn[ (,n)]一sgn[ (,n一1)]l W(11,一,n) = l sgn[ (11,)]一sgn[ (11,一1)]l*W(17,) 其中sgn( )是符号函数. 2 基于音频信号的自适应实验 2.1 音频信

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档