基于GV―LDA微博话题检测研究.docVIP

下载本文档

3
0
约7.96千字
约 16页
2018-08-28 发布于福建
举报
版权申诉

基于GV―LDA微博话题检测研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于GV―LDA微博话题检测研究

基于GV―LDA微博话题检测研究　　摘要：随着社交网络的不断发展，微博成为越来越多的人获取信息的平台。为了有效解决微博话题检测中海量短文本带来的词稀疏问题，提出结合全局向量模型（GloVe）和潜在狄利克雷分布（LDA）的GV-LDA模型。在使用LDA进行话题检测前，模型利用多义词词项的含义与词性相关的事实，在标注过并去除低频词的语料上，对全局向量模型进行训练获得词向量，对词性相同且相似度大于阈值的词进行替换以解决稀疏性问题。实验结果表明， GV-LDA模型较传统的LDA主题模型，可有效提高话题检测的准确率和召回率，并降低“主题-词”处理的维度，因此GV-LDA更适合微博话题检测。　　关键词：微博；话题检测；全局向量；潜在狄利克雷分布　　DOIDOI：10.11907/rjdk.172432 　　中图分类号：TP319 　　文献标识码：A 文章编号：1672-7800（2018）002-0131-05 　　0 引言　　随着信息技术的快速发展，社交网络信息量出现了爆炸式增长，人们可接触的信息越来越丰富，如何从海量信息中获取有效信息受到研究者越来越多的关注。　　微博是一个基于用户关系的信息传播平台，可使用电脑或手机上的网页或应用，通过发布、评论、点赞、转发文字消息、照片或视频音频链接等方式，即时分享自己对事件的感受。微博作为一种新的网络媒体形式，已经成为普通民众分享、关注、获取所关心信息的重要平台。微博的字数限制在140字之内，更加契合忙碌运转的现代社会对写作和传播方式的需要，增加了人们创作的随意性。微博用户可以便捷地了解自己所关注的人和群组发布的消息，但无法及时掌握整个平台的热点话题。为此，需要将海量的微博信息进行组织和归并，从中提取话题，并以简洁而明确的形式予以展示。　　利用微博的结构和内容信息，结合现有的话题检测技术，本文提出一套适合微博的话题检测方法，以更加有效地利用微博信息为用户提供更完善的信息服务。本文研究的主要问题包括共现窗口大小的确定、如何从词共现获得词向量、相似词归并中如何选定相似度阈值、如何通过文本得出话题等。　　1 相关工作　　Hofmann等[1]提出基于似然原理的生成模型PLSA（Probabilistic Latent Semantic Analysis，概率潜在语义分析），其基本思想是每个文档都是通过选择主题的分布，然后根据分布选择文档中的词语生成的。主题的数量有限，?τΦ臀?的语义空间，主题挖掘就是通过“降维”将文档从高维空间投影到语义空间。PLSA使用EM（Exception Maximization，最大期望算法）对模型进行求解，其计算复杂度小于SVD算法，因此PLSA在性能和扩展性等方面的表现优于LSA。但是PLSA在文档层面没有提供合适的概率模型，同时EM算法需要反复迭代，计算量依然很大。　　Blei等[2]提出的LDA（Latent Dirichlet Allocation，潜在狄利克雷分布）在PLSA中加入了Dirichlet先验分布。在这个模型中，文档建模为主题潜在集合上的有限混合，而主题则建模为主题概率潜在集合上的无限混合。针对PLSA中过多的参数导致过拟合及难以对训练集外的文档分配概率等缺陷，LDA引入了超参数，形成“文档-主题-词”的三层贝叶斯模型，使用变分贝叶斯近似后验分布推导参数来挖掘文本主题。　　ThomasL.Grffiths等[3]在LDA模型的参数推导阶段引入马尔科夫链-蒙特卡洛算法（Gibbs抽样），并使用贝叶斯模型的选择来确定主题数量。其对参数的推导过程更加快速，同时解决了变分贝叶斯方法中参数局部最优的问题。　　微博与传统文本在结构和内容上有差异，传统的话题检测方法不能很好地对其建模。为此，研究者纷纷提出新的模型，LDA模型在传统文本话题检测中表现卓越，多数模型基于LDA模型进行改进。　　孙胜平[4]提出在空间向量模型中使用SPHA聚类算法用于微博话题检测。总体思想是：首先使用归一化TF-IDF函数计算特征权重，然后使用余弦法则计算文本的相似度，接着在话题初步检测中采用Single-Pass增量聚类算法，对与话题相似度高于阈值的文本进行归并，最后在话题合并环节采用自底向上的凝聚式层次聚类算法，不断合并相似度矩阵中相似度最大的两个文本，得到满足相似度预设值的话题类。　　张晨逸等[5]综合考虑微博文本包含的社交网络结构化信息进行统一建模，提出MB-LDA微博生成模型。该模型基于如下假设：与同一个用户有关联的微博主题相关；转发的微博与原创微博主题相关。对以@开头的对话微博，模型抽样出@的联系人与各个主题的关系，并赋值给微博与主题之间的关系；对转发微博，模型从伯努利分布中抽取参数确定的多项式分布，抽样出当前单词所