基于社会网络分析权威网页挖掘研究.docVIP

基于社会网络分析权威网页挖掘研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于社会网络分析权威网页挖掘研究

基于社会网络分析权威网页挖掘研究   摘要:该论文利用社会网络分析法,对Web上特定主题的权威网页进行了挖掘。实验通过Google搜索引擎选取一定数量的待验证权威网页,并利用网络爬虫爬取一定数量的URL,构造了特定主题的网络结构,然后利用中心性分析以及凝聚子群分析挖掘出该特定网络的权威网页,通过与待验证权威网页进行比较,验证了实验方法的正确性,最后,对实验方法的后续改进进行了探讨。   关键词:社会网络分析;权威网页;URL;网络爬虫;中心性分析   中图分类号: G350 文献标识码: A 文章编号:1009-3044(2016)20-0069-03   万维网的出现以及快速发展使得网络上的网页数量呈现爆炸式的增长,截止2014年底,仅中国的网页数量就已达到1899亿个,年增长26.6%[1]。如何快速、有效的从数以千亿级的网页中寻找到用户需要的网页信息,成为学术界广泛关注的一个话题。互联网中的网页链接关系跟现实社会中人与人之间的关系相类似,而社会网络分析方法又是分析人类群体关系的主要分析方法,如果将社会网络分析法应用于网页信息搜索,是否会有同样的效果?本文通过进行实验分析,对社会网络分析法应用于权威网页挖掘的可行性进行了验证。   1基于主题的网页关系构建   由于Google搜索引擎是基于PageRank算法设计实现的,实验利用Google搜索引擎进行权威网页的选取。将获取到的权威网页作为种子URL,利用设计的网络爬虫对种子URL进行给定深度的爬取,获取实验需要的原始URL数据集。   1.1 种子URL选取   首先选取任意主题信息,如“Python”,并利用Google搜索引擎对“Python”进行搜索,取排名前50位的网页,记录并保存网页地址作为需要验证的权威网页部分URL如表1所示。   1.2 利用网络爬虫获取URL   利用设计的网络爬虫对50条种子URL分别进行深度为1的爬取,总共得到约5500条子URL。这5500条原始URL包含大量重复及无效网页,如广告网页、过期网页,因此还需要对这部分URL进行相应的处理。   去重完毕后还需要对获取到的URL集进行有效性处理,将URL输入浏览器,查看是否属于广告链接或者过期网页。大部分无效URL对实验的结果不会产生影响,可以忽略无效URL的滤取,但忽略这一步会使后续分析更复杂,因此要尽可能过滤无效URL。最终种子URL与爬取到的URL共323条。   1.3 构建URL邻接矩阵   社会网络分析需要的是矩阵形式的数据,因此,需要将获取到的URL整理成邻接矩阵形式。由于URL长度过长,数据录入不方便,因此实验中将每一条URL用数字编号代替,如表2所示。   利用Excel 2007或后续版本进行邻接矩阵的输入,将编号1至323分别输入到第一行与第一列。矩阵中的任一项aij代表第i条URL与第j条URL之间的链接关系,为1表示编号为i的URL链接了编号为j的URL,反之则代表没有链接关系。在对矩阵进行0、1分析时,由于涉及子ULR的链接,因此还需要对子URL进行深度为1的爬取,以确认子URL与其他URL之间的链接关系。对角线上的值由于没有意义不进行处理,最终得到一个323×323的邻接非对称矩阵,后续在进行社会网络分析时还需要对该非对称矩阵其进行对称化处理。   2 实验分析   社会网络分析通常利用中心性分析以及凝聚子群分析等多种方法对人类社会群体进行分析。通过中心性分析可以了解到一个群体中每个成员的重要程度,比较常用的中心性指标有:点度中心度与点度中心势、中间中心度与中间中心势和接近中心度与接近中心势。利用中心性分析可以对URL链接进行相同的分析,从而明确URL网络结构图中每条URL的重要程度,越重要的URL则可以认为它具有更高的权威性。   2.1 中心性分析   1) 点度中心度分析   点度中心度分析就是对网络结构图中的成员节点进行出入度计算。点入度即指向某一节点的节点成员数,点出度则为该节点指向其他节点的成员数。一个节点若被网络中的大多数节点所指向,那么就可以认为它在网络中处于重要的位置,具有较高的权威性。   在UCINET[中选择Network→centrality→Degree...,导入生成的.##h文件,UCINET会自动生成并弹出.txt格式的中心性计算结果。计算结果包含网络中每个节点的点入度与点出度,并且是以每个节点的点出度大小进行的排名,而实验更加关注的是点入度,因此,需要按照每个URL的点入度大小从新进行排序。部分排序结果如表3所示。   通过对点入度排名进行分析发现,编号为46、95、128、148、150、186、241、242等URL具有较大的点入度值,且它们都属于原50条种子URL,可以初

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档