基于多特征的说话人分割与聚类的分析-analysis of speaker segmentation and clustering based on multi - features.docxVIP
- 120
- 0
- 约3.88万字
- 约 62页
- 2018-05-18 发布于上海
- 举报
基于多特征的说话人分割与聚类的分析-analysis of speaker segmentation and clustering based on multi - features
第1章绪论1.1研究背景和意义随着计算机技术、网络技术和通讯技术的不断发展,信息获取方式、存储手段的不断进步和多样化,音频数据量呈爆炸式增长,例如电视广播语音,语音邮件,会议录音等。采用人工的手法来管理这些大量的音频数据既费时又不可靠,为了便于用户检索和浏览,如何对这些海量音频数据库进行有效地管理,使音频数据从“无序”变得“有序”,目前是信息处理领域中的一个重要课题[1,2]。传统的基于文本的信息查询技术使用文本标注的方式实现音频数据的检索,但是人工注释由于效率低,更新周期慢,已不能满足用户对音频信息的需求,必须借助计算机达到实时内容分析的目的,基于内容的音频检索(Content-BasedAudioRetrieval,CBAR)就是在这样的背景下提出来的,已成为多媒体研究的热点之一[3]。基于内容的音频检索就是通过从音频数据中提取和分析音频特征信息,如基音,共振峰结构,美尔频域倒谱系数(MFCC)等声学特征,再对不同音频数据赋予不同的语义,使具有相同语义的音频在听觉上保持相似。音频检索一般包含以下几个步骤:(1)将音频数据分类。(2)对不同类型的音频数据以不同的方式进行处理和建立索引。(3)通过比较查询索引与数据库中音频索引之间的相似性,对音频片段进行检索。由于原始的音频数据除了包含采样率、编码方法、量化精度等注册信息外,本身仅是一种非语义符号和非结构化的二进制流,音频数据缺乏结构化组织和高层语义的描述,造成音频信号的深入处理和分析的困难,从而限制了基于内容的音频检索的应用。说话人分割聚类技术就是解决音频检索问题的关键技术,可以为构造和索引说话人音频档案提供有用信息,实现了音频流的结构化管理,为在更高语义层次上实现音频内容结构化提供了基础。话者分割和聚类除了应用于音频检索领域,还有很广泛的应用意义[4,5]:(1)它可以用于话者确认、自动跟踪、音频内容理解、音频监测等领域。(2)说话人分割聚类技术是音频自动转录(Transcription)系统的重要组成部分。现实生活中的音频流如广播电视、会议、电话等录音,通常由语音和非语音部分组成,通过检测出语音/非语音,只对有效语音部分进行处理和分析,可靠的话者模型从而提高转录系统性能。(3)它可以辅助视屏信号进行切分。视频自动切分是多媒体领域的一个重要课题,由于图像和视频技术发展的限制,计算机不能“理解”视频的内容,视频切分精确度不高,如果可以利用音频领域的一些知识和基本规则来辅助切分,如在新闻视频中,利用切分点主要集中在男女声变换点以及静音段上,可以提高视频切分的准确率和效率。(4)话者分割聚类是话者识别的基础并直接影响语音识别的精度。话者识别任务是从语音中检测判断出所含有说话人身份的任务,几乎所有的自动语音识别系统都要采用说话人自适应技术,因此多人语音则首先需要从多人混合语音段中提取出单人的纯净语音,为无监督的说话人自适应提供更可靠的说话人模型。1.2国内外研究现状因说话人分割和聚类有广泛的应用前景,近年越来越多的研究机构投入到说话人分割聚类的领域。说话人分割与聚类(SpeakerDiarization)是美国国家标准及技术署(NationalInstituteofStandardandTechnology,NIST)每年举办的RT(RichTranscription)任务之一[6,7]。RT被广泛定义为音转字(Speech-to-TextTranscription,STT)和后设资料提取(MetadataExtraction,MDE)技术的综合,其目的是从语音中提取出适合人或者机器使用的信息,让人们更有效的运用大量的语音资料。在MDE评比类别中,有一个项目就是说话人分割和聚类(SpeakerDiarization),它主要解决的是谁在何时说话(whospeakwhen)的问题。NIST定义了SpeakerDiarization的任务[1,6]就是在没有任何的先验知识,说话者的身份和说话人的数目都是未知的情况下,从一段录音资料中区分不同说话者的说话区段,并且一一标注出来。NIST比赛中说话人分割和聚类主要应用于三个领域,分别是广播新闻语音、电话对话语音以及会议录音语音,三类语音随着录音的质量(带宽、麦克风、噪音)、说话的人数、语音持续时间、声学环境等条件的不同,需要的解决方法也不同。许多著名的计算机科学研究机构都参加过SpeakerDiarization评测,包括麻省理工学院的林肯实验室,剑桥大学,IBM研究院人类语言技术组,微软亚洲研究院语音组等,其技术水平代表了当今话者分割与聚类的最高水准。文献[6]中,ELISA提出了一个典型的话者分类系统,它结合了两种典型的方法:一种方法基于典型的先分割后聚类(step-by-step)策略,即分为两步:先将语音自动分割成很多小区段,使每个
您可能关注的文档
- 基于多尺度计算的尿沉渣图像识别方法分析-analysis of urine sediment image identification method based on multiscale calculation.docx
- 基于多尺度几何研究的医学超声图像去噪算法分析-analysis of denoising algorithm for medical ultrasound images based on multiscale geometric research.docx
- 基于多尺度几何分析的细胞图像处理相关技术分析-analysis of related technologies of cell image processing based on multiscale geometric analysis.docx
- 基于多尺度空间研究的线条检测与重构分析-line detection and reconstruction analysis based on multiscale space research.docx
- 基于多尺度ε-lbp算法的人脸识别系统分析-analysis of face recognition system based on multiscale ε - lbp algorithm.docx
- 基于多齿羧酸配体的新型金属—有机框架的合成 结构和性能分析-synthesis structure and performance analysis of new metal-organic frameworks based on multidentate carboxylic acid ligands.docx
- 基于多传感器信息融合的机器人导航策略分析-analysis of robot navigation strategy based on multi-sensor information fusion.docx
- 基于多传感器数据融合的攻击检测与意图识别方法分析-analysis of attack detection and intention identification method based on multisensor data fusion.docx
- 基于多传感器的窄间隙焊虚拟采集分析系统分析-analysis of virtual acquisition and analysis system for narrow gap welding based on multi - sensors.docx
- 基于多传感器信息融合技术的火灾探测报警系统设计与分析-design and analysis of fire detection and alarm system based on multi-sensor information fusion technology.docx
- 小区绿化施工协议书.docx
- 墙面施工协议书.docx
- 1 古诗二首(课件)--2025-2026学年统编版语文二年级下册.pptx
- (2026春新版)部编版八年级道德与法治下册《3.1《公民基本权利》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《4.3《依法履行义务》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《6.2《按劳分配为主体、多种分配方式并存》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《6.1《公有制为主体、多种所有制经济共同发展》PPT课件.pptx
- 初三教学管理交流发言稿.docx
- 小学生课外阅读总结.docx
- 餐饮门店夜经济运营的社会责任报告(夜间贡献)撰写流程试题库及答案.doc
最近下载
- ntvf调试资料解读.doc VIP
- 电影《色.戒》的叙事伦理.doc VIP
- 上海大学2023-2024学年第1学期《高等数学(上)》期末考试试卷(A卷)附参考答案.pdf
- 佳能EOS1500D基本使用说明书说明书.pdf VIP
- 上海大学2023-2024学年第1学期《高等数学(上)》期末考试试卷(B卷)附参考答案.pdf
- 渣打银行(香港)有限公司.PDF VIP
- 2024年吉林高职高专院校单招统一考试《语文》试卷及参考答案.pdf VIP
- JSG202515机器人系统集成应用技术样题-学生组.docx VIP
- 棋盘博弈采购法战略体系.ppt VIP
- 节后复产复工安全知识考试试卷及答案.docx
原创力文档

文档评论(0)