科大讯飞语音识别讲义第五章.pptVIP

下载本文档

39
0
约 97页
2018-12-23 发布于山西
举报
版权申诉

科大讯飞语音识别讲义第五章.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

科大讯飞语音识别讲义第五章科大讯飞语音识别讲义第五章

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 双音多频。DTMF编解码器在编码时将击键或数字信息转换成双音信号并发送，解码时在收到的DTMF信号中检测击键或数字信息的存在性。一个DTMF信号由两个频率的音频信号叠加构成。这两个音频信号的频率来自两组预分配的频率组：行频组或列频组。每一对这样的音频信号唯一表示一个数字或符号。电话机中通常有16个按键，其中有10个数字键0～9和6个功能键*、#、A、B、C、D。由于按照组合原理，一般应有8种不同的单音频信号。因此可采用的频率也有8种，故称之为多频，又因它采用从8种频率中任意抽出2种进行组合来进行编码，所以又称之为“8中取2”的编码技术。根据CCITT的建议，国际上采用的多种频率为687Hz、770Hz、852Hz、941Hz、1209Hz、1336Hz、1477Hz和1633Hz等8种。 * * * * * * * * * * * * * * * * * * * * * * * * * * * 识别过程一个例子内容回顾语音识别系统简介命令词识别系统路由导航识别系统 POI识别系统语音识别接口介绍标准开发接口应用开发接口快速开发接口基于讯飞语音识别系统SDK的开发识别过程一个例子 Thanks！ * * * * 这部分提提问。 * * * * * * * * * * * * * * * * * * * * * * * * ISRepStop 函数原型 int ISRAPI ISRepStop ISR_EP_INST ep, ISRepStopCode code, const wchar_t * hints ; 功能停止端点检测。　参数 ep [in] 先前调用ISRepDetectorCreate得到的端点检测服务实例句柄； code [in] 停止端点检测的原因类型； hints [in] 保留，必须为NULL。 ISRepWrite 函数原型 int ISRAPI ISRepWrite ISR_EP_INST ep, ISRAudioSamples * samples, ISRepState * state, int * bos, int * eos ; 功能向端点检测器发送原始语音数据，返回当前端点检测器所处的状态信息。　参数 ep [in] 先前调用ISRepDetectorCreate得到的端点检测服务实例句柄； samples [in] 输入的原始语音数据结构体指针； state [out] 当前端点检测器所处的状态信息； bos [out] 检测到的语音起始点，相对语音起始位置的偏移量，单位为ms； eos [out] 检测到的语音结束点，相对语音起始位置的偏移量，单位为ms。 typedef struct ISRAudioSamples void * samples; unsigned int len; const wchar_t * type; int status; ?ISRAudioSamples; 其中： samples? [in] 指向音频数据的缓冲区指针； len [in] 音频数据的长度，字节为单位。 type [in] 指明samples指向的音频格式信息，可以的取值有： “audio/basic” 格式为 8-bit 8 KHz u-law [unsigned char *] audio/x-alaw-basic 格式为8-bit 8 KHz A-law [unsigned char *] audio/L16;rate 8000 格式为16-bit 8 KHz linear [short *] status [in] 当前音频的状态，即第一个缓冲区ISR_AUDIO_SAMPLE_FIRST、中间缓冲区ISR_AUDIO_SAMPLE_CONTINUE、最后一个缓冲区ISR_AUDIO_SAMPLE_LAST。 ISRepState指明端点检测器所处的状态，取值如下： 1） ISR_EP_LOOKING_FOR_SPEECH，尚未检测到前端点； 2） ISR_EP_IN_SPEECH，已经检测到语音； 3） ISR_EP_AFTER_SPEECH，已经检测到后端点； 4） ISR_EP_TIME_OUT，处于等待超时状态； 5） ISR_EP_ERROR，端点检测器内部出现错误； 6） ISR_EP_MAX_SPEECH，检测到的语音长度超过门限，处于最大语音状态。 ISRepRead 函数原型 int ISRAPI ISRepRead ISR_EP_INST e