让机器听懂你说话.docVIP

下载本文档

39
0
约1.87千字
约 3页
2020-12-26 发布于四川
举报
版权申诉

让机器听懂你说话.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

精品文档，助力人生，欢迎关注小编！让机器听懂你说话最早的语音识别系统很挑剔我们知道，要想让机器发出声音，是比较简单的，只要将电信号转化为声音信号就可以，收音机、CD机、电视都是这么工作的。可是想让机器听懂我们说出的话，就不那么容易了，这要涉及一项很重要的技术——语音识别技术。简单地说，语音识别技术就是让计算机能够识别接收到的声音信号，并把信号转变为文字或者可执行指令的技术。也许你觉得这好像并不是很难，先把声音信号转换为电信号输入计算机，再让计算机把电信号转化为文字或命令，不就可以了吗？可是不要忘了，每个人说话的声音都是不一样的，他们的音调、口音、用词习惯都不相同，可以说，每个人都有一套自己的声音信号。要想让一台计算机识别所有人的声音信号，这几乎是一件不可能完成的工作。世界上最早的语音识别系统，被安装在了一种名为“Radio Rex”的玩具狗上。这种玩具狗生产于上个世纪20年代。设计师的想法是，当人们呼唤这只狗的名字时，它就可以从底座上一跃而起。这样的狗狗多讨喜啊！然而这个语音识别系统的识别率极低，对于大部分人的呼唤，它没有任何反应，只有极少数“字正腔圆”的呼唤，才能让这只挑剔的狗跳起来。随后，美国的贝尔实验室开发出了一套能够识别10个音节的语音系统。它的工作原理十分简单，当系统接收到一段语音信号时，首先，它会把这段信号转换成电信号，并将电信号拆分为很多段，每一段对应语音中的一个单词；接着，系统将这些代表单词的电信号与系统内置的语音词典进行比对，根据比对结果，将电信号转换为文字；最后，再将这些文字合成为一句话，从而完成对语音的识别。这下，是不是看起来简单可行了？如果你认为是，那我先讲个笑话给你听——话说在寻呼机时代，一位男士本想给妻子的寻呼机留言说：“我已到家乐福，在门口等你。”可呼台小姐给打成：“我已到家了，伏在门口等你。” 人都会犯这样的断句错误，何况机器！韩愈的《师说》里说：“句读之不知，惑之不解”。意思是，如果你不知道一句话该怎么断句，就无法解开心中的疑惑。对于要去识别语言的机器来说，“断句之不能，错之必出”！机器怎样一步步学会了“听话” 这个问题对于中文来说，还好一点。因为中文以汉字为基本单元，很好拆分，可是对于英文等外文来说，大部分词都是多音节的，如何正确地拆分更加令人头疼。一个很有用的数学工具——隐式马尔科夫模型（HMM）帮助科学家解决了这一问题。隐式马尔科夫模型采用概率论的方法，通过大量的计算，可以找到比较合理的拆分单词的方法。单词拆分以后，就需要将其和系统中的语音词典进行比对。在这个过程中，无疑英文是有优势的，因为它的同音词比较少。而我们中文里有大量的同音字，同一个发音，到底要对应哪一个字呢？这显然不仅仅是声音信号分析的问题了。为了解决这一问题，科学家们在声音信号分析的基础上，开始引入知识分析的方法，也就是利用语言的构词方式、句法、语义、对话背景等来帮助进行语音识别，并且对识别出来的语音进行纠错和校对。尽管如此，由于音调、口音的差别，语音识别的准确率仍然不够高。为了提高识别的准确率，很多系统都增加了“学习”的功能。所谓“学习”功能，指的是当系统接收到一段不能识别的语音信号的时候，会将说话者的声音和说话者手动给出的识别结果存储在语音词典中，从而总结出说话者的发音习惯，提高识别的准确率。这样做的好处在于，当系统学习了足够多的语音的时候，它的识别准确率会大大提高。而它的不足之处也是十分明显的，就是一个语音系统只能学习一个人的语音。如果让它学习多个人的语音，就会对它的学习系统造成混乱。 “字正腔圆”仍是基本要求随着科学技术的发展，科学家们在不断地优化语音识别的程序，丰富语音词典的内容，使得语音识别的准确率越来越高。进入21世纪以来，语音识别技术已经相当成熟，识别率很高。我们手机上的语音识别软件，可以让我们打电话时根本不用拨号，直接对着电话大叫“老妈”、“张哥”、“Hellen”……手机就会“听懂”你的话，立刻帮你拨通那个人的电话。随着语音识别技术的成熟，语音对话机器人、语音助手、语音记录等软件和应用也层出不穷。不过即使在现在，你使用语音软件的时候，“字正腔圆”仍然是基本要求。因为系统的识别能力仍然有限，希望在不久的将来，语音识别技术能够真正改变我们的生活。（责任编辑：白玉磊）