- 1、本文档共74页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分类号:
分类号: 学校代号:11845
UDC: 密级: 学号:2111204030
广东工业大学硕士学位论文
(工学硕士)
基于主题模型的语音主题提取研究与应用
唐 侨
指导教师姓名、职称: 塞I』渔 熬援 学科(专业)或领域名称: 控剑抖堂皇王猩 学生所属学院: 自动他堂院 论文答辩日期: 2Q!§生Q堇月2Z旦
万方数据
A
A Dissertation Submitted to Guangdong University of Technology for the Degree of Master
(Master of Engineering Science)
Resea rch on Extracting Speech Topic Based on Topic ModeI
Candidate:Tang Qiao
Supervisor:Prof.Liu Zhi
May 201 5
SchooI of Automation Guangdong University of Technology
Guangzhou,Guangdong。P.R.China,51 0006
万方数据
摘要摘要
摘要
摘要
本文主要研究了语音主题提取的全部过程:主要由语音数据的预处理、文本表 示、特征提取、参数估计、模型训练和主题分类提取组成,以及通过Gibbs.LDA++ 和libsvm的环境平台实现对模型的仿真。
语音数据的预处理主要包括对语音的转换、分词、去除停用词和词频统计。利 用语音转换得到文本数据,再利用中科院计算所的汉语词法分析系统ICTCLAS对 文本数据进行分词和去除停用词,以减少无用词的干扰,降低数据量;对进行了分 词和去除停用词的数据再做词频统计,方便后面的处理,以及给词赋予权重。
文本表示和特征的提取是计算机能够有效处理数据与提取性能好坏有着直接的 联系。文本的表示我们利用的是向量空间模型,它是自然语言处理常用的模型,有 着可靠的理论支持。特征提取是通过改进的z2统计量的方法来选取的,它主要是利 用了特征项与类别间的关系来决定,避免了重要信息的丢失。
在特征提取完后,我们需要在这些特征集上进行参数估计和模型的训练。参数 估计是为了给建立LDA模型提供必要的三个参数妒、p和T。妒和卢在LDA中不能 直接的获得,只能通过一些近似算法得到,在这里我们采用了MCMC中的Gibbs 采样来获取。T是主题数的大小值,需要我们人为设定,但是取多大的值才是最优 的呢。我们通过优化DBSCAN算法,利用样本密度来判断主题与主题之间的相互 关系来选取最优主题数,实现了性能的提高,减少了迭代次数。参数获取完后,就 需要进行LDA模型的训练,让模型生成一个隐藏主题.文本矩阵,为后面的分类提 取算法支持向量机提供支持,构造出分类器。
最后我们通过在Gibbs.LDA++和libsvm的环境平台上进行中英文语音数据的提 取实验,通过对比实验结果,根据性能的评测方法,我们能明显的验证出基于主题 模型对语音主题的提取的优越性和有效性。
关键词:LDA模型,主题提取,Gibbs采样,主题
万方数据
ABSTRACTAB
ABSTRACT
AB STRACT
This paper studies the process of speech topic extraction:mainly by data of speech preprocessing,text representation,feature extraction,parameter estimation,model training and topic classification and through the Gibbs-LDA++and libsvm environment platform to realize the simulation ofthe model.
Data of speech preprocessing mainly includes the transformation of speech,division of words,remove stop words and word frequency statistics.Speech conversions used to get the text data,and by ICTCLAS to divide words and remove the stop,in order tO
reduce interference without words and reduce the amount of data.Atter dividing words
and removing the stop,we do
您可能关注的文档
- 几种榕小蜂的分子学鉴定研究-动物学专业论文.docx
- 加工贸易与湖南县域经济发展研究-国际贸易学专业论文.docx
- 加快达拉特旗旅游业发展探析-公共管理专业论文.docx
- 即时任务求解的语义Web服务组合的研究-计算机科学与技术专业论文.docx
- 回租式融资租赁合同的性质分析-法律(非法学)专业论文.docx
- 回肠间置术治疗非肥胖2型糖尿病大鼠疗效的初步研究-外科学(普通外科)专业论文.docx
- 基于中小企业供应链金融信用风险评估的H公司授信评估研究-物流工程专业论文.docx
- 回转零件派生CAPP系统原型研究-机械制造自动化专业论文.docx
- 基于子波变换的人造视网膜信息提取模型研究-光学工程专业论文.docx
- 基于组态思想的城市路灯监控系统软件的设计与实现-控制理论与控制工程专业论文.docx
- 基层国土部门土地登记管理系统的设计-农业推广专业论文.docx
- 基于桌面VR技术的初中《科学》Web课件设计-课程与教学论专业论文.docx
- 基于组态软件与GSM短消息数据传输技术的远程水情监控系统-检测技术与自动化装置专业论文.docx
- 基于自适应评价方法的水泥回转窑神经控制器-控制理论与控制工程专业论文.docx
- 基于组合式神经网络模型的电力负荷预测-测试计量技术及仪器专业论文.docx
- 基金分离定理的实证研究-金融学专业论文.docx
- 基金公司规模对基金业绩的影响研究-金融学专业论文.docx
- 基于作业成本法的青岛炼化成本控制体系研究-工业工程专业论文.docx
- 基金定投业绩评价及定投标的选择-金融学专业论文.docx
- 基金公司的风险管理机制研究:基于C基金公司的研究-工商管理专业论文.docx
最近下载
- 国开模拟电子电路形考作业1-3试题及答案.docx
- 网络与信息安全管理员—网络安全管理员中级工习题库与参考答案.docx VIP
- DSM-5-进食障碍-诊断标准.pdf
- 5.1 合理消费 第一课时 课件 道德与法治四年级下册.pptx
- 化工设计大赛年产5.5万吨1,4-丁二醇项目.doc
- 网络舆情概论(微课版)全套PPT课件.pptx
- DB11T 2258-2024 城市轨道交通装配式多腔复合结构隧道加固技术规范.pdf VIP
- 重庆市高等教育教学改革研究项目开题报告书.doc VIP
- DB34T 2939-2017 霍山铁皮石斛枫斗加工技术规程.docx VIP
- MODEL 2030在线粉尘烟度计使用说明书MODEL 2030在线粉尘烟度计使用说明书.pdf
文档评论(0)