- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE
PAGE 1
PAGE
PAGE 3
第一篇 采购公告
根据政府采购的相关规定,为重庆市黔江区人民法院庭审语音识别改造项目确定供应单位。现将有关采购事宜公告如下:
一、采购项目概况
项目名称
项目编号
采购最高限价(元)
定标办法
黔江法院庭审语音识别改造项目
245000
最低评标价法
二、投标人资质要求
1、投标人须具有独立承担民事责任的能力,且具有有效的《营业执照》或《事业单位法人证书》、《税务登记证》、《组织机构代码证》。
2、采购产品是投标人的经营范围。
3、本项目不接受联合体投标。
4、投标人对法院网络结构和构架比较熟悉,能够独立实施本项目。
5、投标人应取得原厂授权代理委托书。
三、项目联系人及电话
采购单位联系人及电话:李老师四、监督管理
本项目采购活动接受本院及相关监管部门的监督管理。
第二篇 采购项目技术、商务要求
一、项目概况
本项目为重庆市黔江区人民法院采购庭审语音识别改造,实现庭审语音识别功能及庭审管理相关功能。
项目采购清单及技术要求
序号
名称
技术要求
单位
数量
备注
1
庭审语音识别系统
一、基础能力平台(中文语音转写引擎)主要为智能庭审系统提供底层多种能力的调用,包括语音合成、语音识别等。这些能力都是在通用技术效果的基础上,针对法庭庭审场景、司法、法言法语等进行了专门的优化。本次智能庭审系统语音能力利用在法院内网已建好的语音能力平台或者在采购人处新建语言能力平台(安装费和升级费用由中标人承担)进行庭审过程中的语音实时识别转换,平台至少包含普通话识别库和重庆话识别库,普通话识识别率大于95%、重庆话识别率大于80%。
中文语音转写引擎语音识别技术的实现原理图如下:
主要解决在庭审场景下的语音到文字的转换,要求系统在声音采集、处理、后处理等方面需要在口语化交流场景下的具备良好的识别效果,根据该原则,本次智能庭审系统的核心语音识别能力采用的技术路线如下:
(1)基于DFCNN的声学建模技术
深度全序列卷积神经网络(DFCNN,Deep Fully Convolutional Neural Network),使用大量的卷积层直接对整句语音信号进行建模。
首先,在输入端DFCNN直接将语谱图作为输入,相比其他以传统语音特征作为输入的语音识别框架相比具有天然的优势;
其次,在模型结构上,借鉴了图像识别的网络配置,每个卷积层使用小卷积核,并在多个卷积层之后再加上池化层,通过累积非常多的卷积池化层对,从而可以看到非常长的历史和未来信息。
(2)基于N-gram模型、RNN语言建模技术、word-embedding的语义模型建模
一方面继续优化传统框架下的N-gram模型和RNN语言模型,通过显著扩大训练语料数量提升语言模型覆盖性;
另一方面通过基于word-embedding的语义模型建模和语言模型区分性训练研究,进一步和语音识别后处理模块结合,以筛选掉识别结果中语义不通顺的语句,提升识别结果可读性。
(3)口语化和篇章级语言模型处理技术
借鉴语音识别处理噪声问题采用加噪训练的思想,即在书面语的基础上自动引入回读、倒装、语气词等口语“噪声”现象,从而可自动生成海量口语语料,解决口语和书面语之间的不匹配问题。
首先,收集部分口语文本和书面文本语料;
其次,使用基于Encoder-Decoder的神经网络框架建模书面语文本与口语文本之间的对应关系,从而实现了口语文本的自动生成。
另外,上下文信息可以较大程度帮助人类对语言的理解,对于机器转录也是同样的道理。因此根据语音识别的解码结果自动进行关键信息抽取,实时进行语料搜索和后处理,用解码结果和搜索到的语料形成特定语音相关的语言模型,从而进一步提高语音转录的准确率;解码器的动作是把音频的特征值抽取后,通过解码器进行声学模型的技术和语言模型的计算,给出最终的识别文字,随后解码器是对通用的标准中文构建的,识别结果中有些后处理的构建,比如语义、关键词优化等可以影响解码器的工作,自适应的过程是通过语义,关键词优化等对解码器进行二次优化,再输出最终的结果。
(4)文本处理实时纠错+文字后处理
通过提取上下文相关的语义特征,同时结合停顿、基频信息等语音特征来进行句子与段落的划分;考虑到有标注的语音数据较难获得,在实际运用中利用两级级联双向长短时记忆网络建模技术,第一级采用上下文相关语义特征,第二级采用语音学特征,从而较好的解决了分句与分段问题。通过使用泛化特征并结合双向长短时记忆网络(LSTM,Long Short Term Memory)建模技术,使得内容的顺滑程度达到了实用阶段。
本次方案利用最新的语音识别引擎,针对语音识别应用中面临的方言口音、背景噪声等问题,基于实际业务系统中所收集的涵盖不同方言和
文档评论(0)