让机器听懂你说话.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
精品文档,助力人生,欢迎关注小编! 让机器听懂你说话 最早的语音识别系统很挑剔 我们知道,要想让机器发出声音,是比较简单的,只要将电信号转化为声音信号就可以,收音机、CD机、电视都是这么工作的。可是想让机器听懂我们说出的话,就不那么容易了,这要涉及一项很重要的技术——语音识别技术。 简单地说,语音识别技术就是让计算机能够识别接收到的声音信号,并把信号转变为文字或者可执行指令的技术。也许你觉得这好像并不是很难,先把声音信号转换为电信号输入计算机,再让计算机把电信号转化为文字或命令,不就可以了吗?可是不要忘了,每个人说话的声音都是不一样的,他们的音调、口音、用词习惯都不相同,可以说,每个人都有一套自己的声音信号。要想让一台计算机识别所有人的声音信号,这几乎是一件不可能完成的工作。 世界上最早的语音识别系统,被安装在了一种名为“Radio Rex”的玩具狗上。这种玩具狗生产于上个世纪20年代。设计师的想法是,当人们呼唤这只狗的名字时,它就可以从底座上一跃而起。这样的狗狗多讨喜啊!然而这个语音识别系统的识别率极低,对于大部分人的呼唤,它没有任何反应,只有极少数“字正腔圆”的呼唤,才能让这只挑剔的狗跳起来。 随后,美国的贝尔实验室开发出了一套能够识别10个音节的语音系统。它的工作原理十分简单,当系统接收到一段语音信号时,首先,它会把这段信号转换成电信号,并将电信号拆分为很多段,每一段对应语音中的一个单词;接着,系统将这些代表单词的电信号与系统内置的语音词典进行比对,根据比对结果,将电信号转换为文字;最后,再将这些文字合成为一句话,从而完成对语音的识别。 这下,是不是看起来简单可行了?如果你认为是,那我先讲个笑话给你听——话说在寻呼机时代,一位男士本想给妻子的寻呼机留言说:“我已到家乐福,在门口等你。”可呼台小姐给打成:“我已到家了,伏在门口等你。” 人都会犯这样的断句错误,何况机器!韩愈的《师说》里说:“句读之不知,惑之不解”。意思是,如果你不知道一句话该怎么断句,就无法解开心中的疑惑。对于要去识别语言的机器来说,“断句之不能,错之必出”! 机器怎样一步步学会了“听话” 这个问题对于中文来说,还好一点。因为中文以汉字为基本单元,很好拆分,可是对于英文等外文来说,大部分词都是多音节的,如何正确地拆分更加令人头疼。 一个很有用的数学工具——隐式马尔科夫模型(HMM)帮助科学家解决了这一问题。隐式马尔科夫模型采用概率论的方法,通过大量的计算,可以找到比较合理的拆分单词的方法。 单词拆分以后,就需要将其和系统中的语音词典进行比对。在这个过程中,无疑英文是有优势的,因为它的同音词比较少。而我们中文里有大量的同音字,同一个发音,到底要对应哪一个字呢?这显然不仅仅是声音信号分析的问题了。 为了解决这一问题,科学家们在声音信号分析的基础上,开始引入知识分析的方法,也就是利用语言的构词方式、句法、语义、对话背景等来帮助进行语音识别,并且对识别出来的语音进行纠错和校对。 尽管如此,由于音调、口音的差别,语音识别的准确率仍然不够高。为了提高识别的准确率,很多系统都增加了“学习”的功能。所谓“学习”功能,指的是当系统接收到一段不能识别的语音信号的时候,会将说话者的声音和说话者手动给出的识别结果存储在语音词典中,从而总结出说话者的发音习惯,提高识别的准确率。 这样做的好处在于,当系统学习了足够多的语音的时候,它的识别准确率会大大提高。而它的不足之处也是十分明显的,就是一个语音系统只能学习一个人的语音。如果让它学习多个人的语音,就会对它的学习系统造成混乱。 “字正腔圆”仍是基本要求 随着科学技术的发展,科学家们在不断地优化语音识别的程序,丰富语音词典的内容,使得语音识别的准确率越来越高。 进入21世纪以来,语音识别技术已经相当成熟,识别率很高。我们手机上的语音识别软件,可以让我们打电话时根本不用拨号,直接对着电话大叫“老妈”、“张哥”、“Hellen”……手机就会“听懂”你的话,立刻帮你拨通那个人的电话。 随着语音识别技术的成熟,语音对话机器人、语音助手、语音记录等软件和应用也层出不穷。不过即使在现在,你使用语音软件的时候,“字正腔圆”仍然是基本要求。因为系统的识别能力仍然有限,希望在不久的将来,语音识别技术能够真正改变我们的生活。(责任编辑:白玉磊)

文档评论(0)

wh45814 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档