- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语音识别技术调研报告
语音识别技术的原理和应用
语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。
在语音识别的特征提取过程中,主要有语音信息量大,语音的模糊性,重音、音调、音量和音速的变化,环境噪声和干扰等难点。导致语音识别在互联网和传媒行业一直没有得到广泛的应用。但是近几年来,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,硬件的性能的提升和算法的改进,语音识别技术得到突飞猛进的发展。例如音频指纹技术和音频二维码技术等。下面本文具体讨论这两种技术。
音频二维码
音频二维码技术
二维码技术经过多年的发展,已成为大家耳熟能详的名词了。二维码取代传统的键盘树盘输入技术的部分功能,成为互联网行业的第二大入口方式。但是普通的二维码技术只是将文本信息进行加码和解码。这导致二维码只能传输普通的文本信息。如果将音频技术和二维码的概念相结合,利用声音实现终端之间的近距离信息传输,那么毫无疑问音频信息将成为互联网行业的第三大入口方式。
音频二维码技术采用仿生学技术,利用声音实现文件的快速传输。采用跨平台的技术,实现手机、电脑、智能机顶盒等智能设备间的图片、文字、链接的传输。音频二维码技术能在一定程度上取代图像二维码、近磁场传输和蓝牙等技术。
2012年底蛐蛐儿创始人朱连兴开发了一套音频二维码的引擎,名字叫蛐蛐儿SDK。在朱连兴推出了蛐蛐儿SDK之后,音频二维码的开发也变的比以前更加快速和简单。蛐蛐儿通过声音传输的不是文件,而是在发送端生成一个四位的二进制数。这四位二进制数是待发送文件的ID。发送端向接收端发送的其实只是上述生成的ID。发送端在向客户端发送ID的同时向云端发送ID和数据。在接收端接收到ID后,通过该ID向云端获取对应的数据。
音频二维码应用
音频二维码的应用非常广泛。音频二维码通过声音传递信息。广播和电视也通过声音传递信息。如果结合音频二维码技术和广播电视技术,将使二者相得益彰。音频二维码可以使广播电视用户不再是单一的受众,也是参与者。通过音频二维码可以让用户的手机等终端设备接入电视屏幕或者广播。用户在欣赏电视节目或者收听广播节目的同时,也可以通过手持终端参与节目互动环节。这会在给用户带来更好体验的同时,拉动广播电视行业的收视率和收听率。
例如在非诚勿扰的节目播放结束时,孟非不需要说那么长的一串话让观众知道如何来报名参加非诚勿扰,只需要说“欢迎在听到嘀声后报名参加非诚勿扰”就可以了。观众的终端在听到嘀声后解析相应的内容,获取到报名所需要的电话号码和电子邮箱。观众可以任选一种进行报名。这样观众再也不需要拿笔和纸去记录这些信息了。
观众在观看好享购频道的时候,在一个节目结束的时候插入一个声音。观众的手机在听到这个声音后自动解析购买此商品的号码,用户按拨号键就可以直接购买自己想要的商品。使用了音频二维码技术,用户便从对着电视屏幕记录购买号码中解脱出来了。
不像电视技术同时通过声音和画面来传递信息,广播技术只能通过声音来传递信息。所以在广播行业中,尤其需要其它的手段让听众接收信息。在这个需求下,音频二维码技术变得尤为重要。
通过音频二维码技术,广播和电视可以向用户推送广告,例如团购消息、好享购商品信息以及商场打折券等等;可以向用户推送增值服务,例如天气预报、银行还款等等;可以向用户发起投票活动;还可以允许用户分享这些内容到各大社交论坛,吸引物联网用户的眼球。
缺点
蛐蛐儿SDK采用的是人耳可以听到的四千到一万伏的频段。这导致非常容易被周围环境中的噪声干扰。经过测试,该SDK在咖啡店和火锅店等公共场所中,在两米以内的传输率能达到百分之百,距离越远,传输率越低。
蛐蛐儿SDK采用的是人耳听觉范围内的音频,这对于广播电视行业来说是个缺点。因为在原本纯内容的声音信息中加入了其它的对人耳来说无用的声音,可能会让观众无法接受。这个问题可以通过采用超声波或者次声波来代替可听波来解决。但是如果采用超声波,会显著增加功耗,并且不能绕过障碍物。在电视前站一个人将把所有信息拒之门外。并且某些频率的次声波对人体产生的危害非常大。所以确定音频的频率是一个非常重要的研究。
音频指纹
音频指纹技术
音频指纹技术是一种通用音频处理技术。它能根据音频对象的特征准确识别该对象的信息。音频指纹是音频对象简短的摘要。音频指纹技术在音频对象和指纹之间建立一种映射关系。通过这种机制,不需要通过比较较大的音频对象本身,而是通过比较相关的指纹,就可以确定音频之间知觉平等的关系。
音频技术的研究起步较早,现在已发展的非常成熟。音频指纹的研究主要有两个方向。一是基于水印嵌入的指纹方法。周鸿飞提出了一种基于混沌和
您可能关注的文档
最近下载
- 部编人教版六年级上册道德与法治《6.人大代表为人民》教案教学设计(3课时).pdf VIP
- 灯具安装施工方案范本.pdf VIP
- 工程全过程造价咨询服务方案.pdf VIP
- 抖音电商达人LV1-LV2等级提升测试考试答案&电商达人LV2-LV3等级提升试卷题库.docx VIP
- 企业薪酬管理基础知识讲解(powerpoint 118页).ppt
- 2025年江苏省镇江市辅警协警笔试笔试真题(附答案).docx VIP
- 县中医院度工作目标及绩效工资分配方案.docx VIP
- 金属压铸机的plc控制.pdf VIP
- 20S515 钢筋混凝土及砖砌排水检查井.docx VIP
- 2025年人力资源年终工作汇报.pptx
原创力文档


文档评论(0)