- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
兰州交通大学工程硕士学位论文
热门话题检测相关理论27
基于时间特性的微博热门话题检测算法研究29
基于用户活跃度的微博社区推荐32
5 实验结果及评价36
数据采集36
评价方法36
实验结果与分析36
6 结论与展望40
结论40
工作展望40
致 谢42
参 考 文 献43
攻读硕士期间的研究成果及参加的科研项目47
- V -
万方数据
万方数据
兰州交通大学工程硕士学位论文
1 绪论
研究背景和目的
近年来随着 Web2.0 的发展,网络在线信息呈爆炸式增长,这一方面拓宽了用户获
取信息的渠道,另一方面对用户做出信息选择造成了不利影响。顺应信息时代的发展,
在线社交网络服务为用户发布信息、与他人共享信息提供了平台。互联网信息世界中的
社交网络具有很多与现实世界里的社交网络相同的情况。其中最显著的现象就是所谓的
六度分隔,指的是平均每个结点通过不超过 5 个结点都可以和另一个结点相连接[1],这
也是著名的小世界理论。有很多工具和算法来分析由用户关系形成的社交网络,其中相
互联系的用户用结点表示,用户之间的关系用边来表示。一般来说,一个流行的社交网
络会有几十亿的结点,这些结点通过彼此之间的相互关系连接起来。以图形的方式来看,
有一组结点密集地连接在一起,而不指向其他外围的结点,这些结点组成的集合被看作
是一个社区。充分地理解这些社区的结构、分布及动态变化,人们可以获得更好的机会
去开发创新性的应用和相应的宣传策略。
作为一种新形式的媒体,不同于 BBS 论坛、facebook 以及其他传统的社交服务,
微博具有很多特有的特征,成为人们获取信息、彼此相互交流的平台。首先,用户之间
的关注与被关注关系是单向的,并不需要双方的验证。微博用户不仅包括歌手、电影明
星和普通用户,也包括虚拟用户如公司、科学主题和天气预报等。微博社区中总是存在
着许多所谓的“领导者”,这些人粉丝团庞大,形成了社区信息传播的中心枢纽。其次,
社区的结构在相对较短的时间内变化频繁。当一个用户发现一条有趣的信息被转发了很
多遍时,他可能就会关注最初发布这条信息的用户。这个现象表明社区结构往往趋于平
缓。再次,为了得到更全面的新闻和信息,普通用户可能会关注很多有名的结点,这就
造成了社区结构的重叠。最后,用户之间具有多个属性和关系,例如关注、粉丝、朋友
和指向(@)等。这种用户之间的多维关系增加了社区的复杂性和覆盖面,尤其使得信息
传播沿着关注链接快速扩散。
考虑到用户可以获得朋友发布的所有信息,信息传播主要依靠用户之间的互动行
为,如图 1.1 所示。从图中我们可以了解到,一个用户创造性地发布了一条信息,然后
通过与其互动的其他用户向外层传播该信息,这使本来没有直接联系的用户具有了某种
间接的联系。类似于其他的在线社交网络结构,微博社区也具有自己的意见领袖,这些
意见领袖与很多用户之间具有链接,他们发布的信息频繁的被粉丝转发。另外,社区内
的成员之间与社区外相比,互动更频繁、链接紧密度更高。通过对网络的进一步分析,
我们可以获得特定的拓扑结构来识别各种在线社区的目的,如商业的、安全的使用。
- 1 -
万方数据
基于用户活跃度和热门话题的微博社区推荐技术研究
作为 Web2.0 时代最流行的沟通平台,微博社区使用户能够创建、传播和检索信息,
因此得到了飞速地发展。根据《2012 中国微博蓝皮书》,中国 19 岁及以上的微博用户
占互联网用户的比重已经达到 88.81%,并且微博用户总量约为 3.27 亿,整体呈现趋向
饱和态势。与传统的新闻媒体(例如报纸、广播、电视)相比,微博表现出了一些显著的
特点,如表 1.1 所示:
图 1.1 信息传播拓扑结构
表 1.1 微博与传统媒体的对比
特征 传统媒体 微博
文本长度 具有几百或几千字的文本长度 少于 140 个字符
更新频率 慢 很快
信息提供者 新闻工作者 任何人
质量监控 严格的质量控制 无人控制
数量增长率 慢 很快
鉴于这些因素,微博社区呈现出“大量信息”的特征,造成了信息过载问题。微博
用户在面对不同提供者共享的巨量信息时感觉很难做出决定。例如,给定一个具有 10
万活跃用户的社区,假设每个用户每天创建 10 条微博,这样每天就会有 100 万条更新
的信息,这就造成了信息泛滥,使用户很难有效地阅读。因此,基于用户活跃度和热门
话题的微博社区推荐系统成为帮助用户解决信息过载问题的关键,从“大量信息”中检
索出微量的有效信息。
另外,人们通过常规的网络搜索引擎可以实现导航查询功能,如“Sina 网站”。不
过,这种简单的方式有时候并不能满足人们的信息需求,或者可能无法提供“正确”的
- 2 -
万方数据
兰州交通大学工程硕士学位论文
查询结果,此类查询通常称为信息查询,包括昂
文档评论(0)