声纹识别技术在调度录音研究应用探究.doc

下载文档 降价啦

0
0
约2.91千字
约 6页
2017-11-19 发布于福建
举报
版权申诉
保障服务

声纹识别技术在调度录音研究应用探究.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

声纹识别技术在调度录音研究应用探究

声纹识别技术在调度录音研究应用探究　　【摘要】随着电网调控一体模式的应用打破传统的调度的业务范畴，调控拓展成为电网信息通信与设备的集中监视与指挥控制中心，各类生产业务的实时、准确信息逐步汇集到调度台。作为各类监控信息和管理流程的汇集点，调度下令的准确性直接关乎电网运行稳定性。本文针对调度录音系统的需求，通过对声纹识别技术在调度录音分析的应用进行分析研究，期望再进一步通过技术力量改变调度下令不规范，用语不真切的不良习惯，从根本上解决调度下令的多年诟病，提升电网调度下令水平。【关键词】调度；调度录音；录音分析；声纹识别 1.研究目的及意义调度岗位业务范畴的扩容，直接导致调度人员的工作量上浮，对于日常工作，指挥下令的操作更为频繁，目前调度电话录音每月数量已经接近万条，平均下来每一天都有三、四百条录音文件产生，其中正规调度下令录音占约2/5，目前针对录音内容，采用人工逐一收听的办法来判定录音内容是否规范，下令是否正确。通过人工抽检测听的方式，无法全面有效地评价调度质量，难以确保调度人员正确使用规定的调度术语且调度指令准确、无误；且人工抽检方式工作量大，效率低。应用语音分析技术，将电网调度中心保存的非结构化的录音数据转为结构化的索引信息（文本结构），通过关键词检索、筛选、业务归类等处理及分析，建立声纹模型以及设定关键字，如拉开、闭合、下令等关键字眼，对调度流程规范进行自动确认和问题分析，大幅度提高质检效率和覆盖面，提升电网调度质量，降低运营成本，提高运营管理水平。 2.主要技术在调度录音分析的应用 2.1 调度录音预处理输入的调度语音信号需要进行预处理，预处理过程的好坏在一定程度上影响系统的识别效果。在调度录音预处理过程中，采用文本相关的声纹识别技术。语音转写（识别），是指将非结构化的语音文件转换为结构化的文本信息，是语音分析的核心功能。处理时将分离后的调度录音通过声学模型转换为汉语音标符号，再通过超大词汇网络的语言模型将音标信息识别为文本内容。由于调度员的本地口音及中文自带的语调，必须优化声学模型和语言模型，以提升语音转写准确率。在具体实施过程中，采用识别词混淆网络（Word Confusion Network，WCN）作为文本分类器的输入，使用WCN中覆盖的词而不是只使用语音转写结果进行文本分类，提高对识别错误的鲁棒性。 2.2 调度录音索引及检索目前，在调度录音中，同一个录音记录了调控人员和运行人员的全部对话。通过场景分割技术对两方通话内容进行分离，进而针对性对调度质量分别进行监控和分析，以识别问题发生点及问题内容。场景分割，是指对通话录音中的双方通话行为进行检测、切割和分离。经过预处理的调度录音经过场景分割，再进行下一步的进行索引与检索。语音索引，是指将语音中包含的各类信息进行识别和归类，并形成方便查询统计的索过检测电话录音的基频、音高等变化幅度，预测情绪波动并定位其位置信息，分析出通话录音的平均语速以及语速变化，检出通话录音的静音时间等，生成标准XML格式的索引文件。索引内容包括：调控人员语音和运行人员语音的文字转写结果，如果是双声道语音，则给出声道信息（关键词位于哪个声道）；通话的语音端点、语速等信息，主要包括调控人员和运行人员各自的每次说话的起止时间、语速（字/秒）、平均语速（字/秒）、异常情绪、静音时长等。语音检索，是指从索引文件进行关键词信息的快速筛选，返回语音结果并进行自动统计。语音检索，支持逻辑组合检索、二次检索等功能。在语音检索应用中，通过使用“拉开”、“闭合”、“下令”、“复诵”等关键字进行检索，可快速定位与关键字相关的录音信息，从而进一步进行人工筛选。 2.3 调度录音模型选取在语音分析应用中，语音识别效果取决于声学模型和语言模型。声学模型方面，需要考虑人以及用户使用环境对语音的影响，建立了不同口音的声学模型和噪音处理的声学模型；语言模型方面，结合电力实际业务需要，通过对调度过程的分析，建立有针对性的业务语言模型。中文为带调的语言，声学特征除传统的MFCC谱特征外，也使用代表调型的Pitch特征。一般调型的特征反映在韵母上，即一个韵母因为调型不同有4个单元。考虑到对于同一个韵母的4个单元，其MFCC特征是没有差异的；而对于不同韵母的同一个调，其Pitch特征也是很接近的。双流模型：采用双流声学模型建模技术，将MFCC和Pitch特征分成两个流：在Tri-phone决策树聚类阶段，对于声母部分，每个音素建一棵决策树；对于韵母部分，在MFCC流同一个音素不同调建一棵决策树，在Pitch流同一个调不同音素建一棵决策树。这种建模方式，大大降低了带调韵母需要的