基于关键词识别的股票查询系统的实现.pdfVIP

下载本文档

2
0
约7.85千字
约 5页
2017-03-17 发布于广东
举报
版权申诉

基于关键词识别的股票查询系统的实现.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于关键词识别的股票查询系统的实现.pdf

基于关键词识别的股票查询系统的实现4 朱莉赵铁军哈尔滨工业大学计算机科学与技术学院黑龙江哈尔滨150001 摘要：设计了一个基于关键词识别技术的股票查询系统。该系统采用连续隐马尔科夫模型(CHMM) 框架，对词表内的关键词和词表外的非关键词分别建模，并在训练时引入了说话人自适应谢I练方法。识别前先对说话人进行自适应，然后采用前向．后向搜索策略，得到假想命中。在确认阶段用似然比检验方法时候选关键词打分，拒识摔得分低的候选。实验结果表明，本系统能取得较高的识别率，基本满足实际需要。关键词：关键词识别股票查询系统连续隐马尔科夫模型说话人自适应训练 1引言近年来，语音识别技术受到人们的广泛关注，并越来越走向实用化。实用化的迫切需求需要解决在人机交互中口语语音识别的瓶颈，比如人的自然语言中可能包含一些词表以外的词，以及不规范、不连贯等口语现象Ⅲ，这些情况会导致识别率急剧下降。丽关键词识别技术并不要求完全正确得识别出一句话中的每个词，它只是通过从连续语音中识别出包含重要信息的关键词。来理解用户要表达的意思，因此它可以有效解决口语语音识别中的瓶颈问题，在实用系统中有很好的应用。关键词识别系统可以分为基于特定人的和基于非特定人的两种。非特定人关键词识别技术虽然已经取得了飞速发展，但是与训练充分的特定人关键词识别系统相比，其识别性能还是存在着很大差距，导致这种情况的原因是说话人之问的差异。因此人们引入了说话人自适应技术，它在非特定人识别系统基础上，通过采集系统使用者的少量语音数据，调整模型参数，使得系统对该使用者的识别性能获得明显提高，接近于特定人系统识别性能。为了使用户能用口语化的自然语言与计算机进行交互，查询股票的行情信息，我们设计并实现了一个交互式非特定人股票查询系统。该系统以关键词识别技术为系统接口，为股票查询用户提供各个股票的行情以及深市、沪市的大盘走势等信息服务，并在训练和识别中，均引入了自适应技术，使得系统对训练集以外的用户同样取得了较高的识别率。 2系统模块介绍系统主要包括以下五个模块，语音录入和处理、模型训练、说话人自适应、关键词识别、对话管理。图1为该股票查询系统的构成框图。首先用声卡采集到说话人的语音，然后对输入语音进行预处理和特征参数提取。训练时，用说话人自适应训练方法为关键词和非关键词建立一组连续HMM模型。识别前，先对待识别的说话人进行自适应， ‘基金资助l国家自然科学基金资助项目。作者简介t朱莉(1981一)，女，山东冠县人，硕士研究生，主要研究方向为语音识别、说话人自适应：赵铁军(1962一) 男，教授，博士生导师，主要研究方向为计算语言学、机器翻译、人工智能等。 322 计算机技术与应用进展·2006 得到线性变换关系，存储在机器中以各识别时使用。关键词检出和关键词确认两个子过程构成关键词识别模块。在关键词检出阶段，用连续HMM模型结合线性变换关系，对待识别的语音特征矢量序列采用前向一后向搜索策略进行解码，得到候选结果。在关键词确认阶段用似然比检验方法对候选关键词打分，拒识掉分数低的候选。最后，对话管理模块根据识别出的关键词向用户提供相应的反馈信息。识别时，由于系统一方面要实时监控是否有声音，同时还要对真正的输入语音进行识别，因此系统是基于多线程思想实现的，主要包括两个线程：一是系统主线程，另一个线程是语音采集线程。前者用于HMM 集管理、对话管理、关键词识别等，后者负责语音的实时采集、检测等。围1股票查询系统框图 2．1语音录入和处理语音的录入是通过计算机声卡进行采集。软件方面采用的是WindowsMDK(Multimedia Development Kit)中的多媒体低层音频函数实现，虽然实现起来较为复杂，但具有灵活性高、实时性强的特点，能够保证在采集语音的同时对采样数据进行实时的音频处理。数加0阶系数以及它们的一阶、二阶差分共39维。 2．2说话人自适