科大讯飞语音识别讲义第五章.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
科大讯飞语音识别讲义第五章科大讯飞语音识别讲义第五章

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 双音多频。DTMF编解码器在编码时将击键或数字信息转换成双音信号并发送,解码时在收到的DTMF信号中检测击键或数字信息的存在性。一个DTMF信号由两个频率的音频信号叠加构成。这两个音频信号的频率来自两组预分配的频率组:行频组或列频组。每一对这样的音频信号唯一表示一个数字或符号。电话机中通常有16个按键,其中有10个数字键0~9和6个功能键*、#、A、B、C、D。由于按照组合原理,一般应有8种不同的单音频信号。因此可采用的频率也有8种,故称之为多频,又因它采用从8种频率中任意抽出2种进行组合来进行编码,所以又称之为“8中取2”的编码技术。根据CCITT的建议,国际上采用的多种频率为687Hz、770Hz、852Hz、941Hz、1209Hz、1336Hz、1477Hz和1633Hz等8种。 * * * * * * * * * * * * * * * * * * * * * * * * * * * 识别过程 一个例子 内容回顾 语音识别系统简介 命令词识别系统 路由导航识别系统 POI识别系统 语音识别接口介绍 标准开发接口 应用开发接口 快速开发接口 基于讯飞语音识别系统SDK的开发 识别过程 一个例子 Thanks! * * * * 这部分提提问。 * * * * * * * * * * * * * * * * * * * * * * * * ISRepStop 函数原型 int ISRAPI ISRepStop ISR_EP_INST ep, ISRepStopCode code, const wchar_t * hints ; 功能 停止端点检测。   参数 ep [in] 先前调用ISRepDetectorCreate得到的端点检测服务实例句柄; code [in] 停止端点检测的原因类型; hints [in] 保留,必须为NULL。 ISRepWrite 函数原型 int ISRAPI ISRepWrite ISR_EP_INST ep, ISRAudioSamples * samples, ISRepState * state, int * bos, int * eos ; 功能 向端点检测器发送原始语音数据,返回当前端点检测器所处的状态信息。   参数 ep [in] 先前调用ISRepDetectorCreate得到的端点检测服务实例句柄; samples [in] 输入的原始语音数据结构体指针; state [out] 当前端点检测器所处的状态信息; bos [out] 检测到的语音起始点,相对语音起始位置的偏移量,单位为ms; eos [out] 检测到的语音结束点,相对语音起始位置的偏移量,单位为ms。 typedef struct ISRAudioSamples void * samples; unsigned int len; const wchar_t * type; int status; ?ISRAudioSamples; 其中: samples? [in] 指向音频数据的缓冲区指针; len [in] 音频数据的长度,字节为单位。 type [in] 指明samples指向的音频格式信息,可以的取值有: “audio/basic” 格式为 8-bit 8 KHz u-law [unsigned char *] audio/x-alaw-basic 格式为8-bit 8 KHz A-law [unsigned char *] audio/L16;rate 8000 格式为16-bit 8 KHz linear [short *] status [in] 当前音频的状态,即第一个缓冲区ISR_AUDIO_SAMPLE_FIRST、中间缓冲区ISR_AUDIO_SAMPLE_CONTINUE、最后一个缓冲区ISR_AUDIO_SAMPLE_LAST。 ISRepState指明端点检测器所处的状态,取值如下: 1) ISR_EP_LOOKING_FOR_SPEECH,尚未检测到前端点; 2) ISR_EP_IN_SPEECH,已经检测到语音; 3) ISR_EP_AFTER_SPEECH,已经检测到后端点; 4) ISR_EP_TIME_OUT,处于等待超时状态; 5) ISR_EP_ERROR,端点检测器内部出现错误; 6) ISR_EP_MAX_SPEECH,检测到的语音长度超过门限,处于最大语音状态。 ISRepRead 函数原型 int ISRAPI ISRepRead ISR_EP_INST e

文档评论(0)

牛X文档 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档