- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于GV―LDA微博话题检测研究
基于GV―LDA微博话题检测研究
摘 要:随着社交网络的不断发展,微博成为越来越多的人获取信息的平台。为了有效解决微博话题检测中海量短文本带来的词稀疏问题,提出结合全局向量模型(GloVe)和潜在狄利克雷分布(LDA)的GV-LDA模型。在使用LDA进行话题检测前,模型利用多义词词项的含义与词性相关的事实,在标注过并去除低频词的语料上,对全局向量模型进行训练获得词向量,对词性相同且相似度大于阈值的词进行替换以解决稀疏性问题。实验结果表明, GV-LDA模型较传统的LDA主题模型,可有效提高话题检测的准确率和召回率,并降低“主题-词”处理的维度,因此GV-LDA更适合微博话题检测。
关键词:微博;话题检测;全局向量;潜在狄利克雷分布
DOIDOI:10.11907/rjdk.172432
中图分类号:TP319
文献标识码:A 文章编号:1672-7800(2018)002-0131-05
0 引言
随着信息技术的快速发展,社交网络信息量出现了爆炸式增长,人们可接触的信息越来越丰富,如何从海量信息中获取有效信息受到研究者越来越多的关注。
微博是一个基于用户关系的信息传播平台,可使用电脑或手机上的网页或应用,通过发布、评论、点赞、转发文字消息、照片或视频音频链接等方式,即时分享自己对事件的感受。微博作为一种新的网络媒体形式,已经成为普通民众分享、关注、获取所关心信息的重要平台。微博的字数限制在140字之内,更加契合忙碌运转的现代社会对写作和传播方式的需要,增加了人们创作的随意性。微博用户可以便捷地了解自己所关注的人和群组发布的消息,但无法及时掌握整个平台的热点话题。为此,需要将海量的微博信息进行组织和归并,从中提取话题,并以简洁而明确的形式予以展示。
利用微博的结构和内容信息,结合现有的话题检测技术,本文提出一套适合微博的话题检测方法,以更加有效地利用微博信息为用户提供更完善的信息服务。本文研究的主要问题包括共现窗口大小的确定、如何从词共现获得词向量、相似词归并中如何选定相似度阈值、如何通过文本得出话题等。
1 相关工作
Hofmann等[1]提出基于似然原理的生成模型PLSA(Probabilistic Latent Semantic Analysis,概率潜在语义分析),其基本思想是每个文档都是通过选择主题的分布,然后根据分布选择文档中的词语生成的。主题的数量有限,?τΦ臀?的语义空间,主题挖掘就是通过“降维”将文档从高维空间投影到语义空间。PLSA使用EM(Exception Maximization,最大期望算法)对模型进行求解,其计算复杂度小于SVD算法,因此PLSA在性能和扩展性等方面的表现优于LSA。但是PLSA在文档层面没有提供合适的概率模型,同时EM算法需要反复迭代,计算量依然很大。
Blei等[2]提出的LDA(Latent Dirichlet Allocation,潜在狄利克雷分布)在PLSA中加入了Dirichlet先验分布。在这个模型中,文档建模为主题潜在集合上的有限混合,而主题则建模为主题概率潜在集合上的无限混合。针对PLSA中过多的参数导致过拟合及难以对训练集外的文档分配概率等缺陷,LDA引入了超参数,形成“文档-主题-词”的三层贝叶斯模型,使用变分贝叶斯近似后验分布推导参数来挖掘文本主题。
ThomasL.Grffiths等[3]在LDA模型的参数推导阶段引入马尔科夫链-蒙特卡洛算法(Gibbs抽样),并使用贝叶斯模型的选择来确定主题数量。其对参数的推导过程更加快速,同时解决了变分贝叶斯方法中参数局部最优的问题。
微博与传统文本在结构和内容上有差异,传统的话题检测方法不能很好地对其建模。为此,研究者纷纷提出新的模型,LDA模型在传统文本话题检测中表现卓越,多数模型基于LDA模型进行改进。
孙胜平[4]提出在空间向量模型中使用SPHA聚类算法用于微博话题检测。总体思想是:首先使用归一化TF-IDF函数计算特征权重,然后使用余弦法则计算文本的相似度,接着在话题初步检测中采用Single-Pass增量聚类算法,对与话题相似度高于阈值的文本进行归并,最后在话题合并环节采用自底向上的凝聚式层次聚类算法,不断合并相似度矩阵中相似度最大的两个文本,得到满足相似度预设值的话题类。
张晨逸等[5]综合考虑微博文本包含的社交网络结构化信息进行统一建模,提出MB-LDA微博生成模型。该模型基于如下假设:与同一个用户有关联的微博主题相关;转发的微博与原创微博主题相关。对以@开头的对话微博,模型抽样出@的联系人与各个主题的关系,并赋值给微博与主题之间的关系;对转发微博,模型从伯努利分布中抽取参数确定的多项式分布,抽样出当前单词所
您可能关注的文档
- 基于GIS滑坡致灾成因分析及评价研究.doc
- 基于GIS煤矿安全MIS研究.doc
- 基于GIS煤矿机电设备可视化管理系统分析.doc
- 基于GIS物流配送路径优化系统开发.doc
- 基于GIS犯罪分析系统关键技术探讨.doc
- 基于GIS现代服务业布局评价及优化研究.doc
- 基于GIS环境监测应用研究.doc
- 基于GIS现代配网供电方案自动生成系统研究.doc
- 基于GIS甘肃高寒阴湿区岷归适宜性生长评价.doc
- 基于GIS用地适宜性农牧型城镇土地资源承载力评估.doc
- 基于GWR模型中国生产性服务业空间差异影响因素分析.doc
- 基于GX1121GX3001直播卫星机顶盒整体解决方案.doc
- 基于GwtSpringHibernate实验室科研成果数据平台设计与实现.doc
- 基于GXCORS地理国情普查航空摄影像控测量运用研究.doc
- 基于GXGT Simulator仿真软件PLC项目化教学实践.doc
- 基于G―四联体门控制效应铅离子适配体传感器.doc
- 基于g―C3N4半导体异质结结构改性及其光催化活性研究.doc
- 基于H.248Megaco协议多媒体回铃音业务研究.doc
- 基于H.264ExpGolaomb解码器ASIC设计.doc
- 基于H.264一种快速14像素运动估计算法.doc
最近下载
- 2014职工履历表样表.doc VIP
- 招投标知识培训通用实用PPT解析课件.pptx
- 赣科技版信息科技七年级上册 第2课《网络硬件》第1课时《网络传输介质的分类》课件.pptx
- 山东省德州市2025年中考英语试题(含答案) .pdf VIP
- 小学2022年版科学课程标准解读与讲座分享课件.pptx VIP
- 第三单元 口语交际:长大以后做什么-写作指导+范文赏析+病文升格-2022-2023学年二年级语文下册同步写话素材积累(部编).docx VIP
- 便桥施工方案.docx VIP
- 2025年中职高考中职英语二轮专题 主谓一致课件(共80张PPT).pptx VIP
- 酒店保洁服务接管计划方案.docx VIP
- 《办公软件应用(Office 2016)》课件 项目8--任务1 使用图表分析员工考评成绩.pptx
原创力文档


文档评论(0)