- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
挖掘微博网络中优质源
挖掘微博网络中优质源
摘要:微博目前已经成为信息传播的重要媒介。由于信息种类繁多,已有不少产品着手与信息聚合以方便用户,但却难以涉猎到方方面面。本文以微博平台为依托,从少数种子用户出发试图找出该领域内优质的草根内容源,通过对汽车、创意两个领域的案例网络进行分析,我们发现,两个领域内PageRank影响力排名靠前的用户重叠度非常大,而且大部分用户的兴趣都与给定的领域不符。此文研究成果亦有利于搜索结果的优化。
关键词:微博;标签;PageRank
中图分类号:TP31 文献标识码:A 文章编号:1007-9599 (2013) 01-0075-02
互联网是当今社会的重要因素。从在线交友到多人在线网游,从上网获取信息到网络商城,互联网不仅提供了便利,也增加了许多商机。门户网站的低位被搜索引擎逐渐取代,新一代的在线社交网络逐渐成为互联网发展的重点。在国内,腾讯的QQ是最早最成功的社交网络;之后兴起的新浪微博,有很强的媒体背景,关系网络中的每个用户都可以是媒体,更是信息的传播者和接收者。微博的这种特性极大加速了信息的传播。在这种环境下,微博诞生了许多草根大号,不同于名人大号,草根大号并非名人但却备受关注,他们以优质的内容吸引别人关注,然后发送一些广告以获取收益。这些大号对于微博的发展非常重要。
微博吸引了越来越多来自各个行业、拥有各种背景的人。人们可以自定义标签,五花八门的内容体现出用户的兴趣需求点又广又细。然而,除了一些大众的需求,很多相对冷门的兴趣点并没有聚合起用户。一方面,在当前嘈杂的微博环境中,信息一出现就很有可能被迅速淹没,据数据显示[1],只有很少量的微博才得以广泛传播;另一方面,用户没有好的手段来发现同兴趣的人群,虽然微博有基于标签的推荐,但很多用户都不打标签,且标签也各式各样、很不规范。再者,微博中一些优质信息源甚至可能会停止更新。对于此,互联网上有很多信息聚类的产品,提取优质的信息,包括新浪也推出了微刊、视野等,专门提供优质的内容。
寻找优质的内容源可以看作是质量排序的问题。此问题早在1998年就得到关注,Page基于PageRank[2]创立了google。本文尝试将PageRank用于微博中的用户排名,分析排名靠前的用户在多大程度上符合兴趣需求。实证结果发现:给定一些同兴趣的种子用户,分析他们二度关注内的用户,即便是不同领域,Page Rank排名靠前的用户都具有非常高的重合度,且这些重合的用户大都不满足指定的兴趣需求。
1 数据和方法
1.1 数据
本文关注了两个兴趣领域,汽车和创意。通过人工筛选的方法,分别找到了62个汽车领域的优质内容源,和31个创意领域的优质内容源。筛选的标准很简单:内容符合主题且质量高,内容纯净度高,有一定的粉丝基础,无不良信息。
将这些用户作为种子用户,采用滚雪球[3]的方法分别获取汽车和创意领域的用户群。滚雪球抽样就是基于种子用户采用广度优先搜索的一种抽样方法。应用在本文中,我们仅关注距离种子用户2度以内的用户,通过新浪微博的开放API,利用爬虫程序获得了汽车领域共计4,089,674个用户以及这些用户之间的821,722,043条关注关系,记为网络Ncar,创意领域则有2,813,642个用户和570,398,734条关系,记为Nidea。将这些用户看做节点,关注关系看做是节点之间的连边,那么这些用户和关注关系可构成关系网络。此网络中每个节点的入度分布如图1,均服从截断的幂率分布。
之后,我们对比了两个网络中PageRank排名靠前的用户的重合度,对应于top-100、200、500、1000、2000、5000和10000的重合比例分别为0.93、0.97、0.952、0.943、0.935和0.9337。回顾两个网络的种子用户,没有一个重复的元素,但仅仅是做了两度的扩散,就已经有如此之高的重合比例,所以单纯从结构方面来考虑是不够的,必须要结合每个用户的兴趣标签进行定位。从用户自定义的标签入手,但种子用户中分别只有14和16个有标签:在汽车领域中,排名前几名的标签及其数目分别为汽车14个、交通13个、互联网6个;而创意领域中,设计14个、互联网9个、摄影5个、时尚5个。标签与领域内容非常相关。然而,由于此类用户非常少,仍需结合用户的微博内容。
我们以种子用户的兴趣标签为作为标准,若一个用户与他们的平均相似度越高,就称这个用户更加符合目标用户的特征。基于此,我们计算了每个用户与对应种子用户的平均余弦相似度,然后根据PageRank排名,每2万个用户看作一个小组,统计每个组内余弦相似度分布情况。如图2所示,共计15组(即PageRank排名前30万的用户)。用户的兴趣相似程度集中在0.3~0.6的范围内,分布
您可能关注的文档
最近下载
- 侠客风云传养成模式触发剧情一览.pdf VIP
- YST 582-2013 电池级碳酸锂.pdf
- 淘股吧高手语录.docx VIP
- 2024~2025学年上学期七年级第一次月考数学试题(含答案).pdf VIP
- GB-T6284-1986化工产品中水分含量测定的通用方法重量法.pdf
- MSC:人工智能赋能可持续发展和投资白皮书.pdf VIP
- 24J306 窗井、设备吊装口、排水沟、集水坑图集.docx VIP
- 2014年深圳市坪山新区主要病媒生物监测及白纹伊蚊抗药性研究.pdf VIP
- T∕CBDA 69-2023 建筑装饰装修碳排放计算标准.pdf
- 国际私法(暨南大学)中国大学MOOC 慕课 章节测验 期末考试答案.docx VIP
文档评论(0)