InterReco语音识别系统技术白皮书.docVIP

下载本文档

105
0
约1.16万字
约 17页
2017-11-06 发布于江苏
举报
版权申诉

InterReco语音识别系统技术白皮书.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

InterReco语音识别系统技术白皮书

InterReco 3.0 产品白皮书安徽科大讯飞信息科技股份有限公司 ANHUI USTC iFLYTEK CO.,LTD. 目录 InterReco 3.0 1 1. 介绍 1 1.1 概述 1 1.2 主要功能 1 1.3 系统架构 2 1.3.1 语法子系统 2 1.3.2 引擎子系统 3 1.3.3 端点检测子系统 3 1.3.4 音频输入子系统 3 1.4 识别功能 3 1.4.1 前端语音处理 3 1.4.2 后端识别处理 4 1.5 呼叫导航功能 5 1.5.1呼叫导航的流程： 6 1.5.2呼叫导航的特点： 6 1.5.3呼叫导航的应用： 6 1.6 语法功能 6 1.7 集成开发 8 1.8 分析和优化 8 2. InterReco 3.0产品简介 9 2.1 主要指标 10 2.2 文档和相关资料 11 3. InterReco3.0识别系统性能特性 11 3.1 性能的度量 11 3.2 影响性能的因素 11 3.3 测试环境 12 3.3.1 软硬件标准测试环境 12 3.3.2 基准环境 12 3.3.3 网络调用时的性能 13 4. 技术支持 13 InterReco 3.0 产品白皮书介绍概述语音识别（Speech Recognize）技术，是让机器通过识别和理解过程使之听懂人类语言的技术。语音识别技术是信息技术中人机交互的关键技术，目前已经在呼叫中心、电信增值业务、企业信息化系统中有了广泛的应用。随着语音识别在语音搜索、语音控制等全新应用领域的深入应用，语音识别技术被业界权威人士誉为有可能引发人机界面领域革命的关键技术。近年来，语音识别技术取得了长足的进步，科大讯飞是其中的佼佼者，InterReco语音识别系统是科大讯飞针对日益丰富多样的市场需求而推出的，为构建高价值自助语音服务提供强大、稳定、易用的核心动力引擎。本文档针对希望了解InterReco 3.0语音识别系统的详细功能和性能特性的客户，详细阐述了InterReco 3.0产品的各项指标。通过本文，读者能够了解到世界领先的语音识别系统的整体功能，理解语音识别系统的概念和重要特性。主要功能 InterReco是一款与说话人无关的语音识别系统，为自助语音服务提供关键字语音识别和呼叫导航功能。该产品具备优秀的识别率，提供全面的开发支持，丰富的工具易于使用，采用合理的分布式架构，符合电信级应用的高效、稳定要求。 InterReco电话语音识别产品整合了科大讯飞研究院、中国科技大学讯飞语音实验室以及清华大学讯飞语音实验室在语音识别上多年的技术成果，并针对中文语音识别应用做了多层面的优化，核心技术上达到了国际领先水平。针对语音识别应用中面临的方言口音、背景噪声等问题，InterReco基于实际业务系统中所收集的涵盖不同方言和不同类型背景噪声的海量语音数据，通过先进的区分性训练方法进行语音建模，使语音识别器在复杂应用环境下均有良好的效果表现。InterReco语音识别系统采用分布式架构，继承了科大讯飞久经考验的电信级语音平台高稳定的特点，可以满足电信级应用的高可靠性、高可用性要求。针对传统语音识别产品集成开发困难，业务设计繁琐的问题，InterReco产品大大简化了集成开发和业务开发的复杂度，为系统集成人员和业务开发人员提供了便捷、高效的开发环境。系统架构下图是InterReco产品的主要功能组成模块和组成结构：上图蓝色区域为InterReco语音识别系统的实现范围，白色区域是与InterReco密切相关的组件或第三方角色。 InterReco语音识别系统主要包括应用接口（InterReco Programming Interface）、识别引擎（Recognizer Engine）和操作系统适配（OS Adapters）三个层次，这三个逻辑层共同构成了完整的InterReco 系统架构。应用接口是InterReco系统提供的开发接口，集成开发人员应关注这些接口的定义、功能和使用方法。识别引擎提供核心的语音识别功能，并作为应用接口的功能实现者；同时为了便于开发和使用，系统在这一层提供了一系列高效、易用的工具。操作系统适配层屏蔽了多操作系统的复杂性，为识别引擎提供操作系统相关的底层支持。 InterReco语音识别系统按照逻辑组成可以分为识别语法（Grammar）、识别引擎核心（Recognizer Core）、语音端点检测（Voice Activation Detector）、音频输入（Audio Source）四个子系统，系统的主要设计和开发将按照这些子系统进行。语法子系统语法子系统负责语法编译、优化、加载和管理，主要功能包括：语法编译语法加载/卸载语法激活/逆激活语法缓存管理语法