基于特征空间轨迹匹配法的业务语音自动识别工具的研究.pdfVIP

基于特征空间轨迹匹配法的业务语音自动识别工具的研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
好的开发效果,尤其重要的是为探索改善油田开发效益提供了宝贵的实践经验和决策依据。 作者简介 李斌,高级工程师,油气田开发工作,新疆阜康石油基地准东采油厂,邮编: 831511 ,E-mail : libin1@ 。 基于特征空间轨迹匹配法的业务语音自动识别工具研究 阿迪里江 叶尔江 于保华 新疆农业大学计算机学院 乌鲁木齐 830000 关键词:语音识别 模式匹配 空间轨迹 能量特征 1 引 言 本工具对采集到的语音进行自动识别、分析,监测电话交换机输出的业务语音是否预期内容, 给出识别结果。识别对象主要为无失真传输语音。无失真传输语音通常是指直接从语音资源经 E1 中继话路时隙传输的语音,传输过程中,语音信息几乎不受干扰。 由于业务语音的相对固定,所以识别内核可以抽象为一个特定说话人的识别问题。目前,已经 有许多方法运用于说话人识别,如基于 DTW 的模板匹配法和基于 HMM 的概率统计的方法,但是 它们的缺点是计算量大,训练时间长。考虑到该工具对实时性的要求比较高,基于特征空间语音轨 迹的声学特征模式匹配法的匹配速度为 DTW 法的 1/10,因此采用该方法组织识别内核。 2 识别对象分析 本测试工具主要针对电话交换机输出的业务语音,如:200 、201 、300 电话业务等。有线智能 网业务语音为此类语音典型代表,它的放音组合情况涵盖了其他产品业务的放音情况,下面以有线 智能网业务语音为例说明此类语音。当智能业务流程需要播放语音时,业务平台发消息给交换机, 交换机从语音资源中提取相应语音文件送入中继话路时隙中。该语音文件预先已经加载到交换机, 文件格式采用标准的 PCM 编码。在话路时隙传送过程中,背景噪声只有电噪声,其他杂波干扰可 以忽略不计,语谱特征非常稳定。可以认为待识语音的频谱和形成模板的语音文件频谱几乎一致。 此类语音的放音内容具体描述如下: 智能业务语音分为业务流程语音和基本音两种。业务流程语音是指控制业务流程的语音,可以 单独使用,也可和基本音结合使用,不同的业务有不同的语音;基本音必须和业务流程语音结合使 用,它的内容不随业务改变而改变,主要包括:“1”、“百”、“万”、“元”、“年”等。语音资源中播放 的语句有些由多条语音复合而成,语音之间的间隔很短。放音时,听到的语句是由上述各种语句组 合而成。可能只放一条语句,也可能是多条语句连续放。 3 基于特征空间轨迹匹配法 在基于模式匹配的语音识别中,为解决输入模式与标准模式之间匹配长度不一致的问题,传统 232 的方法有动态时间规整法(DTW: Dynamic Time Warp ),但它的缺点是计算量比较大,对于本工具 针对的问题显然不适合。因此这里采用了识别效率较高的采用特征空间轨迹规整化的方法。 设 S 为标准模式,X 为测试模式,两者均为N 维特征矢量的时间序列。即: S:S (t ) = (S1 (t ),S2 (t ),…Sp (t )) T (0≤t ≤Ts ) T X :X (t ) = (X1 (t ),X2 (t ),…Xp (t )) (0=t=Tx ) DTW 的基本概念是通过寻找一个时间伸缩函数t (t ),该函数将测试模式 X 的时间轴t 非线性 s x x 地映射到标准模式 S 的时间轴 ts 上,并使 X 与 S 的相对距离为最小。由此可见,对同一字词的语音 而言,在理想的情况下,则 X 与 S 的相对距离应为零。即: X (t ) = S (t (t )) (1) x r x 另一方面,从数学的角度来看,X (t )(0≤t ≤Tx )和 S (t )(0≤t ≤T

文档评论(0)

july77 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档