“万柯”访谈录之语音识别.doc

下载文档 降价啦

4
0
约2.95千字
约 17页
2017-03-27 发布于重庆
举报
版权申诉
保障服务

“万柯”访谈录之语音识别.doc

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

“万柯”访谈录之语音识别

“万、柯”访谈录之语音识别万新宇受访者：柯玉鹏，某汽车厂汽研院总设计师。简称：柯访问者：万新宇，简称：万万：柯总，上次谈开车安全时你说到语音识别的重要性，就是“君子动口不动手”，今天来聊一下？柯：好的，语音识别（ASR）是一项古老的技术，1952年“贝尔”就研制出识别10个英文数字发音试验系统。PC时代的IBM语音输入也有20多年了。苹果的siri来源于更早的军方监听项目。万：俗话说：人有人言，鸟有鸟语，可是“鸡同鸭讲眼碌碌”（注1），无法沟通。柯：ASR是一种让机器听懂人类语言的技术，它是人机对话的一项突破。万：ASR是如何实现的，能否科普一下? 柯：ASR是模式识别的一个分支，一种复杂的处理机制。先说ASR的历史。大规模ASR研究从1970年开始，先在小词汇量、孤立词的识别上取得进展。80年后转向大词汇量、非特定人连续语音的识别。万：我们就从最简单开始，语音是怎么变文字的？柯：好，从ABC开始。声音是一种波。ASR是首先把声波前后的静音去掉，然后进行声音分析，就是分帧，把声波切成一个个小段段，每段称为“帧”。当然不是拿刀切，而是用专门工具-移动窗函数。万：这是ASR的第一步？柯：分帧后，要根据人耳的特点做波形转换，把每一帧变成一个多维向量（注2）。万：这第二步，就包含了语音的内容信息了？柯：对，这个过程叫声学特征提取。这样，声音就成了一个12行（这里假定声学特征是12维）N列的矩阵，成了一个观察序列。N为总帧数，你看图中，每一帧都有一个12维的向量，色块的深浅表示向量值的大小。万：那如何把矩阵变成文本呢？柯：先说两个概念：一个是音素；一个是状态（比音素更小的单位）。一个音素含三个状态。接下来三步走：首先把帧识别成状态；其次把状态组合成音素；最后把音素组成单词。每个竖条代表一帧，若干帧对应一个状态，三个状态合成一个音素，若干音素组成一个单词。万：只要知道每帧语音对应哪个状态，语音识别就出来了？柯：是的。可惜没有明确的某帧对某状态，只能看概率，某帧对应哪个状态的概率最大，那这帧就属于那个状态。万：那，这些用到的概率从哪儿来呢？柯：事先有个“声学模型”里存了很多的参数，通过它，就知道帧和状态对应的概率。获取这一大堆参数的方法叫训练。万：这好像有一个问题，每一帧得到一个状态号，整个语音就会得出一堆的状态号来？柯：是的，假设有1000帧，每帧对1个状态,3个状态组合1个音素，会有300多个音素，其实这段语音没这么多音素。实际上相邻祯的状态大多数都相同才合理。万：怎么来解决这个问题呢？柯：最常用的方法是隐马尔可夫模型（HMM），我们戏称它“好妹妹”。万：你的“好妹妹”是什么仙女？柯：玩笑话。一般来说，时间和状态都离散的过程被称为马尔科夫链。说个蛙跳的例子水池中有N张荷叶，为1，2，3,……,N，即蛙跳有N个状态。青蛙所在荷叶，是目前所处的状态；未来的状态，只与现在所处状态有关，与以前的状态无关万：语音信号也有马尔可夫性？柯：语音信号是可观测的，但观察到的只是大脑依据语法知识和言语需要（隐过程）发出的音素流（显过程）。“隐过程”通过“显过程”表现出来，可以通过“显过程”推测“隐过程”，它们之间有概率关系。万：能否举个例子？柯：一个经典的例子：一个乌鲁木齐朋友每天根据天气（下雨，天晴）决定当天的活动（自习，游玩，宅着）中的一种，我每天只能在微信上看到他发的“我前天游玩、昨天自习、今天宅着！”，那么我可以根据他发的微信推断乌鲁木齐这三天的天气。在这个例子里，“显过程”是活动，“隐过程”是天气。可以通过概率计算出天气状况。万：我们的声音是一个物理现象，是由声带、喉咙大小、舌头位置多种作用的结果？柯：是的的原理是将内部语音产生看作是，将声音结果看做观察的状态，观察到的状态序列与隐藏过程有一定的概率关系。用隐马尔科夫模型对这样的过程建模，这个模型包含了一个底层隐藏的随时间改变的马尔科夫过程，以及一个与隐藏状态某种程度相关的可观察到的状态集合。万：请对整个语音识别的路径再归纳一下。柯万：我感觉语音识别的过程和人的认知过程有相似之处，都是通过“自我相似”的过程实现的，看见云彩，知道是云彩，看见一座山，知道是一座山，凭什么？就是“自我相似”，因为儿时在脑子里建立了云的模型、山的模型。柯：上周日我带八岁的女儿下乡度假，她愣是不认识毛驴。万：城里的孩子没见过驴，因为脑子里没有“建模”？柯：所以，看见也不认识它。ASR本质上也是“自我相似”。万：你的意思是先在计算机里建立语音（语言）识别的模型库后进行逐个比对？柯：大概意思差不多。三个步骤：1、特征提取（对听见的语音分析并建立模板）、2、模式匹配（与原有内存的模板比对）、3、参考模型库（查表选出特征最优