说话人识别中语音切分算法地研究.pdfVIP

  • 11
  • 0
  • 约1.43万字
  • 约 5页
  • 2017-08-14 发布于安徽
  • 举报
计算机科学2002Voi.29N-o.9(增刊) 说话入识别中语音切分算法的研究¨ Researchon inSpeaker SpeechSegmentationAlgorithm Recognition 何致远胡起秀徐光祜 (清华大学计算机科学与技术系 北京100084) AbstractInthis andonecontinual are speech paper,threeword—segmentationalgorithms segmentationalgorithm toavoidtheeffectcaused andnoisein data.Thenovelmethodscan presented byspeechenergyshifting speech overcomethelimitationoftheconventional method,andalsohavesomeeffecton off speech segmentation cutting short—timenoiseandwhitenoise. KeywordsSpeech segmentation,Speakerrecognition 、 在说话人识别中,通常只根据帧幅度或帧能量 MH、帧幅度下限阈值舰和帧过零率下限阈值z工 筛选出有声帧用于训练和识别,对语音的精确切分 找出一段语音的起始帧E和结束帧F。如图1.1所 并没有太高的要求。但是,当用于训练和识别的语音 示。 数据量较小时,如基于孤立词的文本提示与文本相 关的说话人识别,为了保证数据的有效性,需要对输 L 入的语音进行精确切分。即使在不需要精确切分的 /、————、 情况下,如基于连续语音的文本无关的说话人识别, 也要对原始语音进行筛选,滤除那些无声帧和噪声 /、 l‘ jl.\ ~ 帧,最大程度地保证用于训练和识别的语音数据的 Fs Fe 有效性。要达到上述目的,就需要较好的语音切分算 法。本文提出了4种语音切分新算法,在不同程度上 L 消除了能量变化和噪声对切分的影响,应用于若干 h/^√ 说话人识别系统,取得了良好的效果。 / I. ^1! 1 传统的语音切分算法 0—、、/、—“、一 —八一 一般说来,语音切分需要提供在安静环境中录 制的静音数据、在噪声环境中录制的噪声数据以及 图1.1传统的语音切分方法 说话人的语音数据。语音切分常用的参数有:帧能量 帧幅度上限阈值%、帧幅度下限阈值ML和帧 E、帧幅度M、帧过零率z、帧幅度过零率乘积MZ

文档评论(0)

1亿VIP精品文档

相关文档