具有词判别力学习能力的短文本聚类概率模型研究-计算机应用研究.PDF

具有词判别力学习能力的短文本聚类概率模型研究-计算机应用研究.PDF

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第35卷第12期 计 算 机 应 用 研 究 Vol35No12 2018年12月  ApplicationResearchofComputers Dec.2018 具有词判别力学习能力的 短文本聚类概率模型研究 牛亚男a,b (北京交通大学a.计算机与信息技术学院;b.交通数据分析与挖掘北京市重点实验室,北京 100044) 摘 要:社交媒体的广泛使用使短文本聚类成为一个重要的研究课题。为了解决由于短文本词向量的高维、稀 疏性而造成的传统文本聚类方法应用在在短文本上效果欠佳的问题,通过大量的研究调查发现由于短文本词向 量的稀疏性,词对簇结构的判别能力对短文本类结构的学习尤为重要。在经典文本聚类模型 LDA(latent Dirichletallocation)、BTM(bitermtopicmodel)和GSDMM(Gibbssamplingdirichletmultinomialmixturemodel)中增 加二项分布来衡量词对类结构学习中的判别力强弱,并通过Gibbs采样算法对模型中的参数进行求解。最后在 真实数据集上的实验结果显示,增加词判别力的学习可以提高现有概率模型聚类方法的精确度、互信息值和F 值,验证了词判别力学习对类结构学习的有效性。 关键词:短文本聚类;概率模型;判别力 中图分类号:TP391.1   文献标志码:A   文章编号:10013695(2018)12356906 doi:10.3969/j.issn.10013695.2018.12.011 Researchonshorttextclusteringprobabilitymodelwithworddiscriminationability a,b NiuYanan (a.SchoolofComputer&InformationTechnology,b.BeijingKeyLaboratoryofTrafficDataAnalysis&Mining,BeijingJiaotongUniversity, Beijing100044,China) Abstract:Thewidespreaduseofsocialmediamakesshorttextsclusteringanimportantresearchtopic.Inordertosolvethe problemthatthetraditionaltextclusteringmethoddonotwellinshorttextcausedbythehighdimensionandsparsenessofthe shorttextwordvector.Itfindthatduetothesparsenessoftheshorttext,theworddiscriminativeabilityisparticularlyimportant forthestudyofshorttextclassstructures.IntheclassicaltextclusteringmodelLDA(latentDirichletallocation),BTM(biterm topicmodel)andGSDMM(Gibbssamplingdirichletmultinomialmixturemodel),itaddedthebinomialdistributiontomeasure thediscriminantabilityintheclassstructurelearning,andsolvedtheparametersinthemodelbyGibbssamplingalgorithm.Fi na

您可能关注的文档

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档