音视频通讯技术-视频二次开发方案.docVIP

下载本文档

1
0
约4.65千字
约 5页
2019-06-27 发布于浙江
举报
版权申诉

音视频通讯技术-视频二次开发方案.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

当我们使用像Skype、QQ这样的工具和朋友流畅地进行语音视频聊天时，我们可曾想过其背后有哪些强大的技术在支撑？网络语音通话通常是双向的，就模型层面来说，这个双向是对称的。为了简单起见，我们讨论一个方向的通道就可以了。一方说话，另一方则听到声音。看似简单而迅捷，但是其背后的流程却是相当复杂的。???? 语音采集语音采集指的是从麦克风采集音频数据，即声音样本转换成数字信号。其涉及到几个重要的参数：采样频率、采样位数、声道数。简单的来说：采样频率，就是在1秒内进行采集动作的次数；采样位数，就是每次采集动作得到的数据长度。而一个音频帧的大小就等于：（采样频率×采样位数×声道数×时间）/8。????? 通常一个采样帧的时长为10ms，即每10ms的数据构成一个音频帧。假设：采样率16k、采样位数16bit、声道数1，那么一个10ms的音频帧的大小为：（16000*16*1*0.01）/8 = 320 字节。计算式中的0.01为秒，即10ms。 ?编码假设我们将采集到的音频帧不经过编码，而直接发送，那么我们可以计算其所需要的带宽要求，仍以上例：320*100 =32KBytes/s，如果换算为bits/s，则为256kb/s。这是个很大的带宽占用。而通过网络流量监控工具，我们可以发现采用类似QQ等IM软件进行语音通话时，流量为3-5KB/s，这比原始流量小了一个数量级。而这主要得益于音频编码技术。所以，在实际的语音通话应用中，编码这个环节是不可缺少的。目前有很多常用的语音编码技术，像G.729、iLBC、AAC、SPEEX等等。网络传送当一个音频帧完成编码后，即可通过网络发送给通话的对方。对于语音对话这样Realtime应用，低延迟和平稳是非常重要的，这就要求我们的网络传送非常顺畅。解码当对方接收到编码帧后，会对其进行解码，以恢复成为可供声卡直接播放的数据。 ? ?? 语音播放完成解码后，即可将得到的音频帧提交给声卡进行播放。如果仅仅依靠上述的技术就能实现一个效果良好的应用于广域网上的语音对话系统，那就没什么太大的必要来撰写此文了。正是有很多现实的因素为上述的概念模型引入了众多挑战，使得网络语音系统的实现不是那么简单，其涉及到很多专业技术。当然，这些挑战大多已经有了成熟的解决方案。首先，我们要为“效果良好”的语音对话系统下个定义，我觉得应该达到如下几点：（1）低延迟。只有低延迟，才能让通话的双方有很强的Realtime的感觉。当然，这个主要取决于网络的速度和通话双方的物理位置的距离，就单纯软件的角度，优化的可能性很小。（2）背景噪音小。（3）声音流畅、没有卡、停顿的感觉。（4）没有回音。下面我们就逐个说说实际网络语音对话系统中额外用到的技术。回音消除 AEC 现在大家几乎都已经都习惯了在语音聊天时，直接用PC或笔记本的声音外放功能。殊不知，这个小小的习惯曾为语音技术提出了多大的挑战。当使用外放功能时，扬声器播放的声音会被麦克风再次采集，传回给对方，这样对方就听到了自己的回音。所以，实际应用中，回音消除的功能是必需的。在得到采集的音频帧后，在编码之前的这个间隙，是回音消除模块工作的时机。????? 其原理简单地来说就是，回音消除模块依据刚播放的音频帧，在采集的音频帧中做一些类似抵消的运算，从而将回声从采集帧中清除掉。这个过程是相当复杂的，而且其还与你聊天时所处的房间的大小、以及你在房间中的位置有关，因为这些信息决定了声波反射的时长。智能的回音消除模块，能动态调整内部参数，以最佳适应当前的环境。噪声抑制 DENOISE? 噪声抑制又称为降噪处理，是根据语音数据的特点，将属于背景噪音的部分识别出来，并从音频帧中过滤掉。有很多编码器都内置了该功能。抖动缓冲区 JitterBuffer 抖动缓冲区用于解决网络抖动的问题。所谓网络抖动，就是网络延迟一会大一会小，在这种情况下，即使发送方是定时发送数据包的（比如每100ms发送一个包），而接收方的接收就无法同样定时了，有时一个周期内一个包都接收不到，有时一个周期内接收到好几个包。如此，导致接收方听到的声音就是一卡一卡的。 JitterBuffer工作于解码器之后，语音播放之前的环节。即语音解码完成后，将解码帧放入JitterBuffer，声卡的播放回调到来时，从JitterBuffer中取出最老的一帧进行播放。????? JitterBuffer的缓冲深度取决于网络抖动的程度，网络抖动越大，缓冲深度越大，播放音频的延迟就越大。所以，JitterBuffer是利用了较高的延迟来换取声音的流畅播放的，因为相比声音一卡一卡来说，稍大一点的延迟但更流畅的效果，其主观体验要更好。当然，JitterBuffer的缓冲深度不是一直不变的，而是根据网络抖动程度的变化而动态调