acoustic modeling声学模型.pptxVIP

  • 59
  • 0
  • 约1.17万字
  • 约 49页
  • 2018-10-08 发布于上海
  • 举报
acoustic modeling声学模型

前言—语音识别 给定一个声音观测序列: ,语音识别的目标就是找到相应的单词序列 使得后验概率 最大,即:由于在计算上式时,观测序列 已经固定,因此最大化上式也就相当于最大化下面的式子:前言 由上式可以看出,语音识别中最主要的就是:1.如何建立准确的声学模型2.如何建立语言模型 在建立声学模型 时,要考虑到说话人变化,发音变化,环境变化以及上下文对于发音的影响。并且,任何静态语音或者语言模型并不能满足实际应用。所以在应用识别系统时,还必须要动态的调节 来最大化 。9.1 .1 Context Variability 上下文变化词和句子水平,例: Mr.Wright should write to Ms.Wright right away about his Ford or four door Honda.1.单词音相同意思不同 wright ,write,right2.发音相同,语义相关 Ford or 和Four Door 需要说话人在词之间停顿或利用语调来将这些语义模糊的短语分离。音素水平,例: peat和wheel 音素/ee/1.取决于它左右的内容2.在快速语音或者自发语音会话时有些音素可能并没有完全实现。9.1 .2 Style Variability 风格变化 在连续语音识别中,说话速率,说话的方式,低语或喊叫都会对识别性能有影响。 为了解决声学实现的变化性,在应用语音识别器时,可以添加一些限制。 例如,可以建立一个孤立词识别系统,使用者被要求在每个单词之间停顿。停顿的设置使得单词之间有了一个清晰的边界,这样我们就可以容易的消除像Ford or 和Four Door这样的错误。并且,孤立词也为每一个单词提供了一个正确的静音语境,这样,对语音进行建模和解码就会变得很容易,计算复杂性和错误率可以大大降低。 优点:单词识别错误率降低(相对连续识别系统降低2%到7%) 缺点:不自然、有限时长包含的语音量显著降低9.1.3 Speaker Variability 说话人变化 每个说话人发出的声音反映了他(或她)的声道大小、长度、脖子宽度等一系列的物理特征以及年龄,性别,方言、健康、教育程度、个人风格等。即使是同一个说话人,也不能保证他说出两句完全相同的话。1.非特定说话人 一般利用500多个说话人来建立一个联合模型。因为由训练集中数据训练得到的模型可能与新说话人不匹配,系统性能就会出现波动。特别是带有口音的说话人错误率会明显提高2到3倍。 为了提高非特定说话人语音识别器性能,在应用时可以添加一些限制。例如,可以要求说话人说30分钟左右的话来进行“注册”,获得特定说话人的声学特征。 9.1.3 Speaker Variability 说话人变化2.特定说话人 对于特定说话人的数据和训练,我们可以获得许多特定说话人的声学特征来显著提高语音识别器的性能。实际上,特定说话人语音识别不仅可以提高准确性还可以提高识别速度。因为这种情况下得到的声学和发音模型更准确,解码会更有效。在与非特定说话人语音识别系统相比,一个典型的特定说话人语音识别系统可以将单词识别错误率至少减少30%。 缺点:需要花费时间收集特定说话人的数据,对于一些实时的应用来说并不适用。当特定说话人的数据量被限制,需要利用说话人自适应训练技术对特定和非特定说话人数据进行处理。9.1.4 Environment Variability 环境变化 背景噪音:环境噪音 发声者自身产生:咂嘴声、呼气声 设备噪音:麦克风、A/D干扰噪声 对于环境变化,我们可以利用从多种环境下获得的数据来建立系统。利用适应技术来归一化不同环境条件。9.3 Signal Processing-Extracting Features9.3.1 Signal Acquisition 信号采集 在语音信号采集中,对于采样率为16khz,16bitA/D转换精度所需要的缓冲器范围一般为4到64KB。在实际中,对于8khz的语音带宽,16khz的采样率已经足够。9.3 .2 End-Point Detection 端点检测 为了激活语音信号捕获,我们可以采用一些模型,例如对讲机(push to talk)或者连续监听(continuously listening)。1.对讲机(Push to talk) 这种模式利用一个特别的推动事件来激活或者关闭语音捕获:按下代表语音开始,释放表示语音捕获的结束。要求使用者在讲话时按下并要持续按住。 优点:不受潜在的背景噪声的影响,并且可以消除为了完成端点检测所需要的处理资源。 缺点:每次说话时都需要激活这种应用。 9.3 .2 End-Point Detection 端点检测2.连续监听(co

文档评论(0)

1亿VIP精品文档

相关文档