- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语音识别技术在图像检索中的应用.pdf
语音识别技术在图像检索中的应用
刘菁华,耿鹏
桂林电子工业学院通信与信息工程系,541004
E-mail: babysiyu45@
摘 要:现有的图像检索技术主要有基于文本的图像检索和基于内容的图像检索两类。这两
类检索技术分别单纯运用其高层语义特征或低层视觉特征进行检索,有其一定的局限性。本文
提出了一种基于多媒体信息融合的图像检索方案,利用语音识别对图像信息进行检索,既可以
提高检索系统的性能,又可以减少用户眼和手的负担,在图像检索领域里将有其广泛的应用前
景。
关键词:语音识别 图像检索 多媒体 信息融合
1 引言
早期图像检索使用的是文本标注方法,是利用关键词或自有文本对其进行描述,即所谓“以
文找图”。随后出现的基于语义的图像检索技术 (semantics-based image retrieval ),在传统的基
于文本的图像检索技术 (text-based image retrieval )基础上做了改进,提高了图像检索系统的
性能,但仍避免不了“答非所问”或“问非所答”的缺陷。至 90 年代初期,基于内容的图像
检索技术 (content-based image retrieval,简称 CBIR )应运而生。该项技术自动提取每幅图像的
视觉内容特征(如色彩、纹理和形状等),并以此为索引进行图像检索,具有“以图找图”的
显著特点。研究表明,这两类检索技术分别单纯运用其高层语义特征或低层视觉特征进行检索,
有一定的局限性。而文本 (语义)特征和图像视觉特征在图像检索中优势互补。因此,将两者
相结合进行图像检索可以取长补短,从而能进一步提高检索系统的性能。另一方面,近几年提
出的语言模型检索系统,将语音识别领域的语言模型引入信息检索系统,可以改善检索系统的
性能,并大大减少了用户眼和手的负担[7]。
2 语音识别系统
语音识别是以语音为研究对象,是语音信号处理的一个重要研究方向。其研究目的就是要
机器具有人的听觉能力,在人机语音通讯中能“听懂”人类口述的语言[4]。
语音识别系统的结构图如图 1 所示。
1
开始
语音信号数字化
数据预处理
端点检测
LPC 倒谱分析
语音模块库 DTW 算法分析
输出识别结果
图 1 语音识别系统结构图
语音信号的数字化包括预滤波和 A/D 采样。语音信号的频率一般介于 100Hz~3400Hz 之
间,需带通滤波器以便滤去频率以外的干扰。语音信号经滤波和采样后,由 A/D 转换器转换
为二进制数字码。
语音信号的预处理一般包括预加重、加窗和分帧处理。预加重的目的是提升高频部分,使
信号的频率变得平坦,以保持在信号的整个频带内具有同样的信噪比,便于声道参数分析,在
语音信号的数字处理中常用的是矩形窗和汉明窗等。
语音信号的端点检测一般采用平均能量、平均幅度值、平均过零率等或上述几种方法的综
合来判
文档评论(0)