- 11
- 0
- 约1.43万字
- 约 5页
- 2017-08-14 发布于安徽
- 举报
计算机科学2002Voi.29N-o.9(增刊)
说话入识别中语音切分算法的研究¨
Researchon inSpeaker
SpeechSegmentationAlgorithm Recognition
何致远胡起秀徐光祜
(清华大学计算机科学与技术系 北京100084)
AbstractInthis andonecontinual are
speech
paper,threeword—segmentationalgorithms segmentationalgorithm
toavoidtheeffectcaused andnoisein data.Thenovelmethodscan
presented byspeechenergyshifting speech
overcomethelimitationoftheconventional method,andalsohavesomeeffecton off
speech
segmentation cutting
short—timenoiseandwhitenoise.
KeywordsSpeech
segmentation,Speakerrecognition 、
在说话人识别中,通常只根据帧幅度或帧能量 MH、帧幅度下限阈值舰和帧过零率下限阈值z工
筛选出有声帧用于训练和识别,对语音的精确切分 找出一段语音的起始帧E和结束帧F。如图1.1所
并没有太高的要求。但是,当用于训练和识别的语音 示。
数据量较小时,如基于孤立词的文本提示与文本相
关的说话人识别,为了保证数据的有效性,需要对输
L
入的语音进行精确切分。即使在不需要精确切分的 /、————、
情况下,如基于连续语音的文本无关的说话人识别,
也要对原始语音进行筛选,滤除那些无声帧和噪声 /、 l‘ jl.\ ~
帧,最大程度地保证用于训练和识别的语音数据的
Fs Fe
有效性。要达到上述目的,就需要较好的语音切分算
法。本文提出了4种语音切分新算法,在不同程度上 L
消除了能量变化和噪声对切分的影响,应用于若干 h/^√
说话人识别系统,取得了良好的效果。 / I.
^1!
1 传统的语音切分算法 0—、、/、—“、一 —八一
一般说来,语音切分需要提供在安静环境中录
制的静音数据、在噪声环境中录制的噪声数据以及 图1.1传统的语音切分方法
说话人的语音数据。语音切分常用的参数有:帧能量
帧幅度上限阈值%、帧幅度下限阈值ML和帧
E、帧幅度M、帧过零率z、帧幅度过零率乘积MZ
您可能关注的文档
- 重磅真丝织物新产品的开发和研究.pdf
- 阳极支撑新型燃料电池PEN多层陶瓷膜的制备的研究.pdf
- 水稻的耐盐性的研究.pdf
- 社区参和和社区建设——以南京市锁金村社区为个案的研究.pdf
- 我国民营经济区域空间分异和后发优势蝶化研究.pdf
- 微生物学的研究中的软电离质谱技术.pdf
- 舌诊的现代技术与方法研究.pdf
- 中国中生代滑体两栖类的研究新进展.pdf
- 室内氡对人体健康影响地研究现状.pdf
- 体育用品业中微博营销地研究.pdf
- 全过程工程管理造价咨询工程监理项目服务方案投标方案(技术部分).doc
- 招标代理服务投标技术服务方案(技术方案).doc
- AI大模型与AIGC技术在公安领域的应用解决方案(99页 PPT).pptx
- 工业4.0智能制造数字工厂规划方案.pptx
- 树立社会主义核心价值观.docx
- 三年(2023-2025)中考历史真题分类汇编(全国)专题21 科技文化与社会生活(解析版).docx
- 2025年中考道德与法治真题完全解读(吉林卷).pdf
- 2025年中考道德与法治真题完全解读(安徽卷).pdf
- 三年(2023-2025)中考历史真题分类汇编(全国)专题14 人民解放战争(解析版).pdf
- 三年(2023-2025)广东中考历史真题分类汇编:专题03 中国近代史(八年级上册)(解析版).docx
原创力文档

文档评论(0)