基于主题模型的语音主题提取研究与应用-控制科学与工程专业论文.docxVIP

下载本文档

2
0
约6.03万字
约 74页
2019-04-26 发布于上海
举报
版权申诉

基于主题模型的语音主题提取研究与应用-控制科学与工程专业论文.docx

1、本文档共74页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

分类号：分类号：学校代号：11845 UDC：密级：学号：2111204030 广东工业大学硕士学位论文 (工学硕士) 基于主题模型的语音主题提取研究与应用唐侨指导教师姓名、职称：塞I』渔熬援学科(专业)或领域名称：控剑抖堂皇王猩学生所属学院：自动他堂院论文答辩日期： 2Q!§生Q堇月2Z旦万方数据 A A Dissertation Submitted to Guangdong University of Technology for the Degree of Master (Master of Engineering Science) Resea rch on Extracting Speech Topic Based on Topic ModeI Candidate：Tang Qiao Supervisor：Prof．Liu Zhi May 201 5 SchooI of Automation Guangdong University of Technology Guangzhou，Guangdong。P．R．China，51 0006 万方数据摘要摘要摘要摘要本文主要研究了语音主题提取的全部过程：主要由语音数据的预处理、文本表示、特征提取、参数估计、模型训练和主题分类提取组成，以及通过Gibbs．LDA++ 和libsvm的环境平台实现对模型的仿真。语音数据的预处理主要包括对语音的转换、分词、去除停用词和词频统计。利用语音转换得到文本数据，再利用中科院计算所的汉语词法分析系统ICTCLAS对文本数据进行分词和去除停用词，以减少无用词的干扰，降低数据量；对进行了分词和去除停用词的数据再做词频统计，方便后面的处理，以及给词赋予权重。文本表示和特征的提取是计算机能够有效处理数据与提取性能好坏有着直接的联系。文本的表示我们利用的是向量空间模型，它是自然语言处理常用的模型，有着可靠的理论支持。特征提取是通过改进的z2统计量的方法来选取的，它主要是利用了特征项与类别间的关系来决定，避免了重要信息的丢失。在特征提取完后，我们需要在这些特征集上进行参数估计和模型的训练。参数估计是为了给建立LDA模型提供必要的三个参数妒、p和T。妒和卢在LDA中不能直接的获得，只能通过一些近似算法得到，在这里我们采用了MCMC中的Gibbs 采样来获取。T是主题数的大小值，需要我们人为设定，但是取多大的值才是最优的呢。我们通过优化DBSCAN算法，利用样本密度来判断主题与主题之间的相互关系来选取最优主题数，实现了性能的提高，减少了迭代次数。参数获取完后，就需要进行LDA模型的训练，让模型生成一个隐藏主题．文本矩阵，为后面的分类提取算法支持向量机提供支持，构造出分类器。最后我们通过在Gibbs．LDA++和libsvm的环境平台上进行中英文语音数据的提取实验，通过对比实验结果，根据性能的评测方法，我们能明显的验证出基于主题模型对语音主题的提取的优越性和有效性。关键词：LDA模型，主题提取，Gibbs采样，主题万方数据 ABSTRACTAB ABSTRACT AB STRACT This paper studies the process of speech topic extraction：mainly by data of speech preprocessing，text representation，feature extraction，parameter estimation，model training and topic classification and through the Gibbs-LDA++and libsvm environment platform to realize the simulation ofthe model． Data of speech preprocessing mainly includes the transformation of speech，division of words，remove stop words and word frequency statistics．Speech conversions used to get the text data,and by ICTCLAS to divide words and remove the stop，in order tO reduce interference without words and reduce the amount of data．Atter dividing words and removing the stop，we do