基于MB-LDA模型的微博主题挖掘陈元元.pptVIP

下载本文档

0
0
约4.87千字
约 31页
2018-06-01 发布于河北
举报
版权申诉

基于MB-LDA模型的微博主题挖掘陈元元.ppt

1、本文档共31页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于MB-LDA模型的微博主题挖掘陈元元

基于MB-LDA模型的微博主题挖掘摘要：Twitter等微博网站日趋流行，已成为海量信息的发布体．在数据挖掘领域，尽管传统文本的主题挖掘已经得到了广泛的研究，但对于微博这种特殊的文本，因其本身带有一些结构化的社会网络方面的信息，传统的文本挖掘算法不能很好地对它进行建模．提出了一个基于LDA的微博生成模型MB-LDA，综合考虑了微博的联系人关联关系和文本关联关系，来辅助进行微博的主题挖掘．采用吉布斯抽样法对模型进行推导，不仅能挖掘出微博的主题，还能挖掘出联系人关注的主题．此外，模型还能推广到许多带有社交网络性质的文本中．在真实数据集上的实验表明，MB-LDA模型能有效地对微博进行主题挖掘．关键词：微博；主题挖掘；LDA；概率生成模型；社交网络 1.微博的简介微博作为Web2．0时代兴起的一种互联网社交网络服务，以其快速便捷的特性风靡全球．微博基于用户之间的关联关系，构筑了一个信息传播和分享的平台，用户可以通过网络、手机或是其他客户端登录微博，实时地进行短文本信息的更新和分享．如：用户可以发布自己最新的状态、表达自己对事物的观点，也可以对某人单独地发起对话，还可以转发别人的微博．微博网站Twitter注册用户已达1.75亿，每天发布的消息超过1.3亿条。本文的贡献：综合考虑了微博中的结构化数据(联系人信息和锐推信息)和非结构化数据(文本信息)，提出了适合于微博主题挖掘的新模型MB-LDA；利用吉布斯抽样法(Gibbs sampling)对MB-LDA模型进行求解，实现主题挖掘，并可以将模型推广到其他带有社会网络性质的文本中(如Email、聊天记录等)；在真实数据集上对模型进行了验证，表明MB-LDA模型能很好地对微博数据进行主题挖掘．缺陷：文章篇幅有限，MB-LDA模型在计算机上的具体操作未详细说明个人收获：大数据时代缺乏的不是数据，而是怎样挖掘出潜在数据价值将MB-LDA主题挖掘模型可否运用于电子商务平台各种模型的灵活运用需要加强数学功底数据挖掘需要跨学科间的合作，效果才会更突显推荐书籍《大数据分析：方法与运用》 * 汇报人：陈元元 MicroBlog-latent Dirichlet allocation 目录微博的简介文本主题挖掘算法微博主题挖掘实验 1.微博的简介特定发送对象感兴趣微博的转发锐推对话所有人均可见广播按消息发布方式分类 LOL RT @ Ethan This is a good website http：//www．vlis．zju．edu．原创内容 RT表示锐推类型转发内容转发部分的作者为Ethan 在信息爆炸时代，从海量信息中挖掘出有效的主题信息，分析出内在语义关联显得尤为重要．微博本身是一种非结构化的文本信息载体，却又带有一些结构化的社会网络方面的信息，这种社会网络的关联关系在主题挖掘时可以起到辅助作用；每条微博是一个文本片段(通常只有一句话)，携带的信息量不大，这种短文本结构会加大其主题挖掘的难度．这些特性决定了微博主题挖掘不能简单地套用传统的文本主题挖掘的方法． 1.微博的简介 2.关于文本主题挖掘算法 2.1 传统的主题挖掘算法 2.2 基于线性代数的主题挖掘算法 2.3 基于概率模型的主题挖掘算法 2.关于文本主题挖掘算法 2.1传统的主题挖掘算法概要：通过VSM（vector space model)将文本里的非结构化数据映射到向量空间中的点，然后用传统的聚类算法实现文本聚类，聚类结果近似认为满足同一个主题．缺点：仅区分类别，并未给出语义信息，不利于人们理解 2.关于文本主题挖掘算法 2.2 基于线性代数的主题挖掘算法概要：LSA (latent semantic analysis)利用SVD (singular value decomposition)的降维方法来挖掘文档的潜在结构(语义结构)，在低维的语义空间里进行查询和相关性分析，通过SVD等数学手段，使得这种隐含的相关性能够被很好地挖掘出来．优点：语义空间的维度类似人类语义理解的维度，便于人类的理解，将表面信息转化为深层次的抽象．缺点：未能解决文本的“一词多义”问题；使得主题的理解并不直观． 2.关于文本主题挖掘算法 2.3 基于概率模型的主题挖掘算法概要：主题模型(topic model)中假设，主题可以根据一定的规则生成单词，那么在已经知道文本单词的情况下，可以通过概率方法反推出文本集的主题分布情况．最具代表性的是PLSA (概率潜语义模型)和LDA（潜在狄利克雷模型）． PLSA沿用了LSA的降维思想：主题挖掘就是通过“降维”将文档从高维空间投影到了语义空间。 LDA在PLSA的基础上加入了Dirichlet先验分布，是PLSA的一个突破