完全无监督的双人对话中的说话人分隔.pdfVIP

下载本文档

10
0
约5.09千字
约 4页
2015-07-29 发布于安徽
举报
版权申诉

完全无监督的双人对话中的说话人分隔.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

信号处理完全无监督的双人对话中的说话人分隔司罗胡起秀金琴 (清华大学计算机科学与技术系，100084) Email：siluo@263．netxxs-dau@mail．tsinghua．edu．cnjin_qin@263．net 商嘲：说话人识别的一个重要用途是在司法领域，包括电话信道罪犯缉拿，法庭中电话录音信息的身份确认，电话语音跟踪等。在这种应用下，所要处理的数据通常是对话数据．应用要求对这些数据进行处理从而确定有谁参加了对话，说了些什么内容等等。要给出这些问题的答案，首先就要进行对话语流中说话人的分隔处理．然后『辱进行说话人识别或说活内容识别。本文介绍了我们对这一问题的探索：将问题简化为完全无监督的双人对话中的话者分隔。既采用了传统的LBG技术，也采用了自己提出的模糊语音段提取技术，取得了较好的实验成果，为今后进一步研究奠定了基础。一．问题的提出对话语流中的说话人分隔就是给定一段语音信号，它是有多位说话人参加的一段对话语流a刹们的任务是要将连续的对话语流分成一段一段单独由一位说话人发出的语音段，确定说话人与说话人之间的间隔，识别出诸位参加对话的说话人中我们感兴趣的说话人，并提取出由每一位说话人参加的每段对话。这一问题可以分为完全有监督，部分有监督，以及完全无监督．完全有监督就是我们已经拥有对于参加对话的说话人的先验知识，也就是己经有了这些说话人的训练数据，那么这一问题就可以按照闭集说话人识别的方法来处理。部分有监督就是已经拥有参加对i舌的部分说话人的先验知识，那么这一问题可以按照开集说话人识别的方法来处理。对于完全无监督的情况是晟难也是实际应用中最普趋的情况，没有说话人的任何先验的数据，因此4i可能作预先的训练。这一问题实际上涉及到一系列相关的问题：如何切分得到语音段和噪声段或静音段的分离，如何将小『司的语音段归属于不同的说话人，如何选择更有效的说话人个性特征，如何处理噪声和信道变化所带来的影响，如何进行距离测度，如何进行模型匹配等等。可以说这是一个很有挑战性的研究课题．近期来受到了人们的重视『I][2113】．基本思路对十这一复杂的研究问题，我们决定把问题简单化，简化成这一问题的子问题，即首先解决完全无监督的双人对话中说话人的分隔问题。事先确定参加对话人数将使问题简单化．在解决完全无监督的双人对话中说话人的分隔问题对，我们主要采用了基于矢量量化v0的方法。下面介绍这种方法。无论使用何种方法，都要首先将语音段与噪音段或静音段分开。我们采用能量和过零率作为区分的标准 (其中在计算过零率时，采用了将小于一定阈值的语音数值视为零的方法，这样可以避免计算静音段中的过霉串)。在将语音段与噪音段或静音段分开之后，我们作了这样的假设，认为噪音或静音段是曲位说话人的语旨段的分界段，即我们认为他们对话的模式为：信号处理 239 说话人l 静占段说话人2 静音段说话人1 静音段即说话人I和说话人2的语音段以静音段为间隔交替出现。这样的假设在某些情况下司能是错误的，冈为很有可能d：一个人语音段中包含着一个静音段或两位说话人的衔接中没有静音段．尽管存在着这样的问题，我们至少可以把语音段分为两类，其中一类含某位说话人的成分多一些(比如说话人1)，认为属十说话人I．另一类属于说话人2。这样我们就可以从这两个初始分类锝到两个胡始模型，模型l和模型2．分别对应说话人1和说话人2。然后用这两个初始模型对所有语音段重新进行分类．于是又得到两个新的模型l和模型 2。这样反复进行，直到聚类收敛到一个较好的值。这时我们就将所有语音段以较高可信度，分为属于说话人I的语音段和属于说话人2的语音段。然后我们就可以利用传统的说话人辨认或说话人确认的方法进行识别r。方法描述初始化我们用下面的方法进行语音段和静音段的分隔 0 ifSE(M