基于结构信息语音理解研究综述.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于结构信息语音理解研究综述

基于结构信息语音理解研究综述   摘要:语音理解作为人机交互研究的关键技术,近年来受到越来越多研究者的关注。尤其是如何挖掘语音文档中结构信息,用于帮助语音理解方面,已经有许多重要的研究成果。首先对近年基于结构信息的语音理解领域中的研究成果进行综述,然后展望未来基于结构信息的语音理解技术可能的研究热点。   关键词:语音理解;人机交互;文档结构;语音文档;信息抽取   中图分类号:TP314   作为人机交互实现中的关键技术――语音理解,已经成为近年来领域内的研究热点之一。而语音文档理解技术,起源于书面文档理解的研究,其工作起始于20世纪50年代。本文首先将从(1)传统的书面文档中的结构信息抽取与应用研究[1][2];(2)新兴的语音文档中的结构信息抽取与应用研究[3][4][5][6][7][8][9][10][11][12],这两个方面对基于结构信息的自动语音理解领域现有的研究成果进行综述;然后对基于结构信息的语音文档理解研究进行展望   1书面文档中的结构信息抽取与应用   考虑到文档结构对于理解文档的重要性,有研究者[1][2]提出抽取一些书面文档的结构特征,并将它们用于文档的主题分段与摘要的抽取。Barzilay等[1]提出了一种无监督学习的主题分段算法中。并将算法应用在信息排序与抽取式摘要任务中。他们的实验结果显示:结构特征能有效地提高性能。Branavan等[2]提出了结构化区分性模型算法,进行书面文档的目录自动生成任务。所生成的文档目录可以看作是一种导向型的文档摘要。由于语音文档与书面文档不同,以上这些传统的书面文档主题分段与主题建模算法无法有效地应用于处理语音文档:首先,它们忽略了语音文档中各个主题事件的时间顺序,不能抓住文档当中所隐含的主题线索;其次,语音识别所产生的文本信息错误对于算法性能有很大的影响。   2语音文档中的结构信息抽取与应用   对于语音文档理解,有研究者[3][4][5][6][7]提出了一些算法用于对语音文档的结构进行建模,并发现准确的结构信息有助于进行文档的主题分段与摘要的抽取。Eisenstein等[3]提出了基于贝叶斯方法的无监督词汇衔接驱动的主题分段算法。他们的算法将词??衔接与核心词组特征综合起来进行主题分段建模,并且在书面文档数据集与语音文档数据集进行了数值实验。Tatar等[4]和Kawahara等[5]采用了Hearst算法[6]进行文档分割并检测出文档中的主题信息,进一步应用这些信息进行文档摘要和长语音段的语音识别。Hirohata等[7]提出了基于语音段位置特征的语音摘要算法。他们考虑到人们通常在演讲语音的介绍部分与结论部分放入更多重要信息,提出只从这两个部分抽取语音摘要内容。同时通过计算语音段与整个语音文档的余弦相似度数值分布情况,得到粗略的语音文档结构信息:将语音文档分成三个部分(介绍部分,内容部分,结论部分)。   语音文档包含两部分信息:语音信号信息和由语音识别系统生成的语音文本信息。以上这些研究工作都只考虑使用语音文本信息寻找语音文档的结构,极少有研究如何使用语音信号信息进行语音文档结构建模的。已有研究者发现,语音特征、韵律特征等从语音信号中抽取出来的特征与语音文档结构有密切的联系[8]。HirschbergNakatani[8]的研究发现讲话风格与语音文档中主题分段有着天然的联系。他们还比较了在同一文档结构块中不同位置语音段的语音特征和韵律特征。   针对以上语音文档理解与摘要研究中的问题:抽取式摘要缺乏结构信息,难以阅读理解;没有考虑语音文档自身所有的语音信号信息与文档结构的相关性;没有在语音文档结构以及摘要提取中加以利用语音特征。在ZhangJ.[9]中首次展示了演讲语音浅层修辞结构与各类语音文档特征相关性的统计证据,并提出了有关演讲语音浅层修辞结构建模与摘要的新算法,用于生成有文档结构的演讲语音摘要。在ZhangJ.[10]中,我们提出了演讲语音含浅层文档结构的语音摘要数据库的构建方法,为语音理解与摘要的研究奠定了坚实的工作基础。   3总结与展望   本文对近年来语音文摘领域所取得的研究成果进行了全面的综述。基于结构信息的语音理解和文摘提取,能够帮助人们从语音文档中抽取出隐含的结构信息,更快速准确地理解语音。在未来几年中,它将成为本领域研究热点和前沿。如何分析深层次语音文档结构;应用不同的机器学习算法,提高抽取语音文档结构的性能,并运用抽取的结构信息,改善语音理解与文摘抽取的性能等都将成为研究者关注的主要方向。   参考文献:   [1]R.BarzilayandL.Lee,Catchingthedrift:Probabilisticcontentmodels,withapplicationstogenerationa

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档