基于用户活跃度和热门话题的微博社区推荐技术研究.doc

基于用户活跃度和热门话题的微博社区推荐技术研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
兰州交通大学工程硕士学位论文 热门话题检测相关理论27 基于时间特性的微博热门话题检测算法研究29 基于用户活跃度的微博社区推荐32 5 实验结果及评价36 数据采集36 评价方法36 实验结果与分析36 6 结论与展望40 结论40 工作展望40 致 谢42 参 考 文 献43 攻读硕士期间的研究成果及参加的科研项目47 - V - 万方数据 万方数据 兰州交通大学工程硕士学位论文 1 绪论 研究背景和目的 近年来随着 Web2.0 的发展,网络在线信息呈爆炸式增长,这一方面拓宽了用户获 取信息的渠道,另一方面对用户做出信息选择造成了不利影响。顺应信息时代的发展, 在线社交网络服务为用户发布信息、与他人共享信息提供了平台。互联网信息世界中的 社交网络具有很多与现实世界里的社交网络相同的情况。其中最显著的现象就是所谓的 六度分隔,指的是平均每个结点通过不超过 5 个结点都可以和另一个结点相连接[1],这 也是著名的小世界理论。有很多工具和算法来分析由用户关系形成的社交网络,其中相 互联系的用户用结点表示,用户之间的关系用边来表示。一般来说,一个流行的社交网 络会有几十亿的结点,这些结点通过彼此之间的相互关系连接起来。以图形的方式来看, 有一组结点密集地连接在一起,而不指向其他外围的结点,这些结点组成的集合被看作 是一个社区。充分地理解这些社区的结构、分布及动态变化,人们可以获得更好的机会 去开发创新性的应用和相应的宣传策略。 作为一种新形式的媒体,不同于 BBS 论坛、facebook 以及其他传统的社交服务, 微博具有很多特有的特征,成为人们获取信息、彼此相互交流的平台。首先,用户之间 的关注与被关注关系是单向的,并不需要双方的验证。微博用户不仅包括歌手、电影明 星和普通用户,也包括虚拟用户如公司、科学主题和天气预报等。微博社区中总是存在 着许多所谓的“领导者”,这些人粉丝团庞大,形成了社区信息传播的中心枢纽。其次, 社区的结构在相对较短的时间内变化频繁。当一个用户发现一条有趣的信息被转发了很 多遍时,他可能就会关注最初发布这条信息的用户。这个现象表明社区结构往往趋于平 缓。再次,为了得到更全面的新闻和信息,普通用户可能会关注很多有名的结点,这就 造成了社区结构的重叠。最后,用户之间具有多个属性和关系,例如关注、粉丝、朋友 和指向(@)等。这种用户之间的多维关系增加了社区的复杂性和覆盖面,尤其使得信息 传播沿着关注链接快速扩散。 考虑到用户可以获得朋友发布的所有信息,信息传播主要依靠用户之间的互动行 为,如图 1.1 所示。从图中我们可以了解到,一个用户创造性地发布了一条信息,然后 通过与其互动的其他用户向外层传播该信息,这使本来没有直接联系的用户具有了某种 间接的联系。类似于其他的在线社交网络结构,微博社区也具有自己的意见领袖,这些 意见领袖与很多用户之间具有链接,他们发布的信息频繁的被粉丝转发。另外,社区内 的成员之间与社区外相比,互动更频繁、链接紧密度更高。通过对网络的进一步分析, 我们可以获得特定的拓扑结构来识别各种在线社区的目的,如商业的、安全的使用。 - 1 - 万方数据 基于用户活跃度和热门话题的微博社区推荐技术研究 作为 Web2.0 时代最流行的沟通平台,微博社区使用户能够创建、传播和检索信息, 因此得到了飞速地发展。根据《2012 中国微博蓝皮书》,中国 19 岁及以上的微博用户 占互联网用户的比重已经达到 88.81%,并且微博用户总量约为 3.27 亿,整体呈现趋向 饱和态势。与传统的新闻媒体(例如报纸、广播、电视)相比,微博表现出了一些显著的 特点,如表 1.1 所示: 图 1.1 信息传播拓扑结构 表 1.1 微博与传统媒体的对比 特征 传统媒体 微博 文本长度 具有几百或几千字的文本长度 少于 140 个字符 更新频率 慢 很快 信息提供者 新闻工作者 任何人 质量监控 严格的质量控制 无人控制 数量增长率 慢 很快 鉴于这些因素,微博社区呈现出“大量信息”的特征,造成了信息过载问题。微博 用户在面对不同提供者共享的巨量信息时感觉很难做出决定。例如,给定一个具有 10 万活跃用户的社区,假设每个用户每天创建 10 条微博,这样每天就会有 100 万条更新 的信息,这就造成了信息泛滥,使用户很难有效地阅读。因此,基于用户活跃度和热门 话题的微博社区推荐系统成为帮助用户解决信息过载问题的关键,从“大量信息”中检 索出微量的有效信息。 另外,人们通过常规的网络搜索引擎可以实现导航查询功能,如“Sina 网站”。不 过,这种简单的方式有时候并不能满足人们的信息需求,或者可能无法提供“正确”的 - 2 - 万方数据 兰州交通大学工程硕士学位论文 查询结果,此类查询通常称为信息查询,包括昂

文档评论(0)

lh2468lh + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档