基于实时词共现网络微博话题发现.docVIP

下载本文档

9
0
约8.2千字
约 13页
2018-08-29 发布于福建
举报
版权申诉

基于实时词共现网络微博话题发现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于实时词共现网络微博话题发现

基于实时词共现网络微博话题发现　　摘要：针对微博的实时性、稀疏性和海量性特点，提出基于实时词共现网络的话题发现模型。首先，从原始语料中筛选出主题词集合，再利用时间参数计算共现主题词的关系权重以实现词共现网络的构建，通过该网络推算出与话题关联性强的潜在特征词以解决微博特征词的稀疏性；其次，采用改进SinglePass算法实现话题增量聚类；最后，对每个话题的主题词按热度计算进行排序，获得最具代表性的话题主题词。实验结果表明，该模型与经典SinglePass聚类算法相比，话题发现准确率约提高6%，综合指标提高8%。实验结果证明所提模型的有效性和准确性。　　关键词：话题发现；实时共现网络；短文本；SinglePass聚类；热度计算　　中图分类号：TP391.1 文献标志码：A 　　Abstract：In view of the realtime， sparse and massive characteristics of microblog， a topic discovery model based on realtime cooccurrence network was proposed. Firstly， the set of keywords was extracted from the primitive data by the model， and the relationship weights was calculated on the basis of the time parameter to structure the word cooccurrence network. Then， sparsity could be reduced by finding potential features of a strong correlation based on weight adjustment coefficient. Secondly， the topic incremental clustering could be achieved by using the improved SinglePass algorithm. Finally， the feature words of each topic were sorted by heat calculation， so the most representative keywords of the topic were got. The experimental results show that the accuracy and comprehensive index of the proposed model increase 6%， 8% respectively compared with the SinglePass algorithm. The experimental results prove the validity and accuracy of the proposed model. 　　Key words：topic discovery； realtime cooccurrence network； short text； SinglePass cluster； hot degree calculation 　　0 引言　　微博以其惊人的传播速度和传播范围以及积极的社会影响力吸引不少人的眼球。其中，跟踪和分享新鲜事是用户使用微博的一个很重要的目的[1]。由于微博较强的即时性和交互性，突发新闻在微博上的传播速度非常快，对于影响力较大的新闻事件，参与评论转发的用户量也很大，使得微博能够先于传统新闻媒体作出反应，成为一个信息流量相当大的平台，但是其内容非常散乱，数据噪声较大。因此及时发现微博热点话题并进行监管，对营造一个温馨、健康、稳定的社会环境有重大的作用和意义，同时，还可以为网络精准营销和广告推荐等新型营销手段奠定基础。　　话题发现研究总体上包含两类：基于概率的话题模型和基于聚类算法。贺亮等[2]利用文档主题生成模型 LDA（Latent Dirichlet Allocation）抽取科技文献话题，然后计算话题的强度和影响力，最后针对冷门和热门话题以及影响力高和影响力低的话题进行了趋势分析。同时也有很多文献将作者信息或者参考文献信息等特征用于LDA实现话题发现。单斌等[3]就LDA话题模型作了一个综述，作为一种非监督方法，LDA话题模型能够自动获取海量文本信息的主题或话题，具有实际应用的前景，同时提及大多数话题演化方法都假设话题数目是固定的，无法探测新话题的产生，旧话题的消亡和分裂。　　骆卫华等[4]