基于XGBoost和随机森林预测微.docx

  1. 1、本文档共33页,其中可免费阅读10页,需付费120金币后方可阅读剩余内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 4、文档侵权举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

PAGE1

摘要

新浪微博已成为国内最大基于用户关系的社交媒体平台,人们无时无刻不在互动微博,产生了巨大的数据可以挖掘。本文以新浪微博为研究对象,提取用户信息、时间信息、博文信息三方面特征,利用随机森林、XGBoost算法预测微博发博一周后的互动量,并分析模型各类特征的重要性及数据时效性。研究发现,微博发博数量及其互动量分布均是向右拖尾的极端分布,随机森林算法相比XGBoost能更好地拟合选题数据,而用户信息特征的重要性显著高于博文信息与时间信息,同时利用三方面预测发博一周后的互动量时可能存在信息冗余。在数据时间方面,短期内训练集与预测集的时间距离没有明显相关关系,相比时间,训练集用户数

文档评论(0)

西咪发创意 + 关注
实名认证
内容提供者

文化创造价值

1亿VIP精品文档

相关文档