声纹识别技术在调度录音研究应用探究.doc

声纹识别技术在调度录音研究应用探究.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
声纹识别技术在调度录音研究应用探究

声纹识别技术在调度录音研究应用探究   【摘要】随着电网调控一体模式的应用打破传统的调度的业务范畴,调控拓展成为电网信息通信与设备的集中监视与指挥控制中心,各类生产业务的实时、准确信息逐步汇集到调度台。作为各类监控信息和管理流程的汇集点,调度下令的准确性直接关乎电网运行稳定性。本文针对调度录音系统的需求,通过对声纹识别技术在调度录音分析的应用进行分析研究,期望再进一步通过技术力量改变调度下令不规范,用语不真切的不良习惯,从根本上解决调度下令的多年诟病,提升电网调度下令水平。 【关键词】调度;调度录音;录音分析;声纹识别 1.研究目的及意义 调度岗位业务范畴的扩容,直接导致调度人员的工作量上浮,对于日常工作,指挥下令的操作更为频繁,目前调度电话录音每月数量已经接近万条,平均下来每一天都有三、四百条录音文件产生,其中正规调度下令录音占约2/5,目前针对录音内容,采用人工逐一收听的办法来判定录音内容是否规范,下令是否正确。通过人工抽检测听的方式,无法全面有效地评价调度质量,难以确保调度人员正确使用规定的调度术语且调度指令准确、无误;且人工抽检方式工作量大,效率低。 应用语音分析技术,将电网调度中心保存的非结构化的录音数据转为结构化的索引信息(文本结构),通过关键词检索、筛选、业务归类等处理及分析,建立声纹模型以及设定关键字,如拉开、闭合、下令等关键字眼,对调度流程规范进行自动确认和问题分析,大幅度提高质检效率和覆盖面,提升电网调度质量,降低运营成本,提高运营管理水平。 2.主要技术在调度录音分析的应用 2.1 调度录音预处理 输入的调度语音信号需要进行预处理,预处理过程的好坏在一定程度上影响系统的识别效果。在调度录音预处理过程中,采用文本相关的声纹识别技术。 语音转写(识别),是指将非结构化的语音文件转换为结构化的文本信息,是语音分析的核心功能。处理时将分离后的调度录音通过声学模型转换为汉语音标符号,再通过超大词汇网络的语言模型将音标信息识别为文本内容。 由于调度员的本地口音及中文自带的语调,必须优化声学模型和语言模型,以提升语音转写准确率。在具体实施过程中,采用识别词混淆网络(Word Confusion Network,WCN)作为文本分类器的输入,使用WCN中覆盖的词而不是只使用语音转写结果进行文本分类,提高对识别错误的鲁棒性。 2.2 调度录音索引及检索 目前,在调度录音中,同一个录音记录了调控人员和运行人员的全部对话。通过场景分割技术对两方通话内容进行分离,进而针对性对调度质量分别进行监控和分析,以识别问题发生点及问题内容。场景分割,是指对通话录音中的双方通话行为进行检测、切割和分离。经过预处理的调度录音经过场景分割,再进行下一步的进行索引与检索。 语音索引,是指将语音中包含的各类信息进行识别和归类,并形成方便查询统计的索过检测电话录音的基频、音高等变化幅度,预测情绪波动并定位其位置信息,分析出通话录音的平均语速以及语速变化,检出通话录音的静音时间等,生成标准XML格式的索引文件。索引内容包括: 调控人员语音和运行人员语音的文字转写结果,如果是双声道语音,则给出声道信息(关键词位于哪个声道);通话的语音端点、语速等信息,主要包括调控人员和运行人员各自的每次说话的起止时间、语速(字/秒)、平均语速(字/秒)、异常情绪、静音时长等。 语音检索,是指从索引文件进行关键词信息的快速筛选,返回语音结果并进行自动统计。语音检索,支持逻辑组合检索、二次检索等功能。 在语音检索应用中,通过使用“拉开”、“闭合”、“下令”、“复诵”等关键字进行检索,可快速定位与关键字相关的录音信息,从而进一步进行人工筛选。 2.3 调度录音模型选取 在语音分析应用中,语音识别效果取决于声学模型和语言模型。声学模型方面,需要考虑人以及用户使用环境对语音的影响,建立了不同口音的声学模型和噪音处理的声学模型;语言模型方面,结合电力实际业务需要,通过对调度过程的分析,建立有针对性的业务语言模型。 中文为带调的语言,声学特征除传统的MFCC谱特征外,也使用代表调型的Pitch特征。一般调型的特征反映在韵母上,即一个韵母因为调型不同有4个单元。考虑到对于同一个韵母的4个单元,其MFCC特征是没有差异的;而对于不同韵母的同一个调,其Pitch特征也是很接近的。 双流模型: 采用双流声学模型建模技术,将MFCC和Pitch特征分成两个流:在Tri-phone决策树聚类阶段,对于声母部分,每个音素建一棵决策树;对于韵母部分,在MFCC流同一个音素不同调建一棵决策树,在Pitch流同一个调不同音素建一棵决策树。这种建模方式,大大降低了带调韵母需要的

文档评论(0)

docman126 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档