基于多特征的说话人分割与聚类的分析-analysis of speaker segmentation and clustering based on multi - features.docxVIP

下载本文档

120
0
约3.88万字
约 62页
2018-05-18 发布于上海
举报

基于多特征的说话人分割与聚类的分析-analysis of speaker segmentation and clustering based on multi - features.docx

基于多特征的说话人分割与聚类的分析-analysis of speaker segmentation and clustering based on multi - features

第1章绪论1.1研究背景和意义随着计算机技术、网络技术和通讯技术的不断发展，信息获取方式、存储手段的不断进步和多样化，音频数据量呈爆炸式增长，例如电视广播语音，语音邮件，会议录音等。采用人工的手法来管理这些大量的音频数据既费时又不可靠，为了便于用户检索和浏览，如何对这些海量音频数据库进行有效地管理，使音频数据从“无序”变得“有序”，目前是信息处理领域中的一个重要课题[1,2]。传统的基于文本的信息查询技术使用文本标注的方式实现音频数据的检索，但是人工注释由于效率低，更新周期慢，已不能满足用户对音频信息的需求，必须借助计算机达到实时内容分析的目的，基于内容的音频检索（Content-BasedAudioRetrieval，CBAR）就是在这样的背景下提出来的，已成为多媒体研究的热点之一[3]。基于内容的音频检索就是通过从音频数据中提取和分析音频特征信息，如基音，共振峰结构，美尔频域倒谱系数（MFCC）等声学特征，再对不同音频数据赋予不同的语义，使具有相同语义的音频在听觉上保持相似。音频检索一般包含以下几个步骤：（1）将音频数据分类。（2）对不同类型的音频数据以不同的方式进行处理和建立索引。（3）通过比较查询索引与数据库中音频索引之间的相似性,对音频片段进行检索。由于原始的音频数据除了包含采样率、编码方法、量化精度等注册信息外，本身仅是一种非语义符号和非结构化的二进制流，音频数据缺乏结构化组织和高层语义的描述，造成音频信号的深入处理和分析的困难，从而限制了基于内容的音频检索的应用。说话人分割聚类技术就是解决音频检索问题的关键技术，可以为构造和索引说话人音频档案提供有用信息，实现了音频流的结构化管理，为在更高语义层次上实现音频内容结构化提供了基础。话者分割和聚类除了应用于音频检索领域，还有很广泛的应用意义[4,5]：（1）它可以用于话者确认、自动跟踪、音频内容理解、音频监测等领域。（2）说话人分割聚类技术是音频自动转录（Transcription）系统的重要组成部分。现实生活中的音频流如广播电视、会议、电话等录音，通常由语音和非语音部分组成，通过检测出语音/非语音，只对有效语音部分进行处理和分析，可靠的话者模型从而提高转录系统性能。（3）它可以辅助视屏信号进行切分。视频自动切分是多媒体领域的一个重要课题，由于图像和视频技术发展的限制，计算机不能“理解”视频的内容，视频切分精确度不高，如果可以利用音频领域的一些知识和基本规则来辅助切分，如在新闻视频中，利用切分点主要集中在男女声变换点以及静音段上，可以提高视频切分的准确率和效率。（4）话者分割聚类是话者识别的基础并直接影响语音识别的精度。话者识别任务是从语音中检测判断出所含有说话人身份的任务，几乎所有的自动语音识别系统都要采用说话人自适应技术，因此多人语音则首先需要从多人混合语音段中提取出单人的纯净语音，为无监督的说话人自适应提供更可靠的说话人模型。1.2国内外研究现状因说话人分割和聚类有广泛的应用前景，近年越来越多的研究机构投入到说话人分割聚类的领域。说话人分割与聚类(SpeakerDiarization)是美国国家标准及技术署（NationalInstituteofStandardandTechnology,NIST）每年举办的RT(RichTranscription)任务之一[6,7]。RT被广泛定义为音转字（Speech-to-TextTranscription,STT）和后设资料提取(MetadataExtraction,MDE)技术的综合，其目的是从语音中提取出适合人或者机器使用的信息，让人们更有效的运用大量的语音资料。在MDE评比类别中，有一个项目就是说话人分割和聚类(SpeakerDiarization)，它主要解决的是谁在何时说话(whospeakwhen)的问题。NIST定义了SpeakerDiarization的任务[1,6]就是在没有任何的先验知识，说话者的身份和说话人的数目都是未知的情况下，从一段录音资料中区分不同说话者的说话区段，并且一一标注出来。NIST比赛中说话人分割和聚类主要应用于三个领域，分别是广播新闻语音、电话对话语音以及会议录音语音，三类语音随着录音的质量（带宽、麦克风、噪音）、说话的人数、语音持续时间、声学环境等条件的不同，需要的解决方法也不同。许多著名的计算机科学研究机构都参加过SpeakerDiarization评测，包括麻省理工学院的林肯实验室，剑桥大学，IBM研究院人类语言技术组，微软亚洲研究院语音组等，其技术水平代表了当今话者分割与聚类的最高水准。文献[6]中，ELISA提出了一个典型的话者分类系统，它结合了两种典型的方法：一种方法基于典型的先分割后聚类(step-by-step）策略，即分为两步：先将语音自动分割成很多小区段，使每个

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于多特征的说话人分割与聚类的分析-analysis of speaker segmentation and clustering based on multi - features.docxVIP