“万柯”访谈录之语音识别.doc

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
“万柯”访谈录之语音识别

“万、柯”访谈录之语音识别 万新宇 受访者:柯玉鹏,某汽车厂汽研院总设计师。简称:柯 访问者:万新宇,简称:万 万:柯总,上次谈开车安全时你说到语音识别的重要性,就是“君子动口不动手”,今天来聊一下? 柯:好的,语音识别(ASR)是一项古老的技术,1952年“贝尔”就研制出识别10个英文数字发音试验系统。PC时代的IBM语音输入也有20多年了。苹果的siri来源于更早的军方监听项目。 万:俗话说:人有人言,鸟有鸟语,可是“鸡同鸭讲眼碌碌”(注1),无法沟通。 柯:ASR是一种让机器听懂人类语言的技术,它是人机对话的一项突破。 万:ASR是如何实现的,能否科普一下? 柯:ASR是模式识别的一个分支,一种复杂的处理机制。先说ASR的历史。大规模ASR研究从1970年开始,先在小词汇量、孤立词的识别上取得进展。80年后转向大词汇量、非特定人连续语音的识别。 万:我们就从最简单开始,语音是怎么变文字的? 柯:好,从ABC开始。声音是一种波。ASR是首先把声波前后的静音去掉,然后进行声音分析,就是分帧,把声波切成一个个小段段,每段称为“帧”。当然不是拿刀切,而是用专门工具-移动窗函数。 万:这是ASR的第一步? 柯:分帧后,要根据人耳的特点做波形转换,把每一帧变成一个多维向量(注2)。 万:这第二步,就包含了语音的内容信息了? 柯:对,这个过程叫声学特征提取。这样,声音就成了一个12行(这里假定声学特征是12维)N列的矩阵,成了一个观察序列。N为总帧数,你看图中,每一帧都有一个12维的向量,色块的深浅表示向量值的大小。 万:那如何把矩阵变成文本呢? 柯:先说两个概念:一个是音素;一个是状态(比音素更小的单位)。一个音素含三个状态。接下来三步走:首先把帧识别成状态;其次把状态组合成音素;最后把音素组成单词。每个竖条代表一帧,若干帧对应一个状态,三个状态合成一个音素,若干音素组成一个单词。 万:只要知道每帧语音对应哪个状态,语音识别就出来了? 柯:是的。可惜没有明确的某帧对某状态,只能看概率,某帧对应哪个状态的概率最大,那这帧就属于那个状态。 万:那,这些用到的概率从哪儿来呢? 柯:事先有个“声学模型”里存了很多的参数,通过它,就知道帧和状态对应的概率。获取这一大堆参数的方法叫训练。 万:这好像有一个问题,每一帧得到一个状态号,整个语音就会得出一堆的状态号来? 柯:是的,假设有1000帧,每帧对1个状态,3个状态组合1个音素,会有300多个音素,其实这段语音没这么多音素。实际上相邻祯的状态大多数都相同才合理。 万:怎么来解决这个问题呢? 柯:最常用的方法是隐马尔可夫模型(HMM),我们戏称它“好妹妹”。 万:你的“好妹妹”是什么仙女? 柯:玩笑话。一般来说,时间和状态都离散的过程被称为马尔科夫链。说个蛙跳的例子水池中有N张荷叶,为1,2,3,……,N,即蛙跳有N个状态。青蛙所在荷叶,是目前所处的状态;未来的状态,只与现在所处状态有关,与以前的状态无关 万:语音信号也有马尔可夫性? 柯:语音信号是可观测的,但观察到的只是大脑依据语法知识和言语需要(隐过程)发出的音素流(显过程)。“隐过程”通过“显过程”表现出来,可以通过“显过程”推测“隐过程”,它们之间有概率关系。 万:能否举个例子? 柯:一个经典的例子:一个乌鲁木齐朋友每天根据天气(下雨,天晴)决定当天的活动(自习,游玩,宅着)中的一种,我每天只能在微信上看到他发的“我前天游玩、昨天自习、今天宅着!”,那么我可以根据他发的微信推断乌鲁木齐这三天的天气。在这个例子里,“显过程”是活动,“隐过程”是天气。可以通过概率计算出天气状况。 万:我们的声音是一个物理现象,是由声带、喉咙大小、舌头位置多种作用的结果? 柯:是的的原理是将内部语音产生看作是,将声音结果看做观察的状态,观察到的状态序列与隐藏过程有一定的概率关系。用隐马尔科夫模型对这样的过程建模,这个模型包含了一个底层隐藏的随时间改变的马尔科夫过程,以及一个与隐藏状态某种程度相关的可观察到的状态集合。 万:请对整个语音识别的路径再归纳一下。 柯 万:我感觉语音识别的过程和人的认知过程有相似之处,都是通过“自我相似”的过程实现的,看见云彩,知道是云彩,看见一座山,知道是一座山,凭什么?就是“自我相似”,因为儿时在脑子里建立了云的模型、山的模型。 柯:上周日我带八岁的女儿下乡度假,她愣是不认识毛驴。 万:城里的孩子没见过驴,因为脑子里没有“建模”?柯:所以,看见也不认识它。ASR本质上也是“自我相似”。 万:你的意思是先在计算机里建立语音(语言)识别的模型库后进行逐个比对? 柯:大概意思差不多。三个步骤:1、特征提取(对听见的语音分析并建立模板)、2、模式匹配(与原有内存的模板比对)、3、参考模型库(查表选出特征最优

文档评论(0)

haihang2017 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档