- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
石油、天然气工业
第 16卷 第 1期 重庆科技学院学报(自然科学版) 2014年2月
生态学视角下主题网站群发现算法的研究
全 立 新
(湖南财政经济学院信息管理系,长沙410205)
摘 要:以相关度较高的主题网站构成的群落,其分布呈现出显著的生态学特性为理论依据,采用链接分析方法 ,对
主题网站的评价指标以及主题网站之间的关联关系进行研究和分析,提出实用性,相似度,递减度和影响力等主题
网站的评价指标,并依据该评价指标,以广度优先为原则,设计主题网站群发现的算法。结果表明,该算法是有效和
可行的。
关键词:主题网站群;链接分析法 ;主题相关度;网络生态学
中图分类号:TP391 文献标识码:A 文章编号 :1673—1980(2014)ol一0137—03
互联网是当今世界上最大的信息资源库,在世 此,网站之间的关联关系变化也就蕴含了生态学的
界上很多国家的信息化进程中处于国家战略资源地 特征。
位,如何充分利用这些信息资源是各国都无法回避 从网络生态学视角下,可得出网站的主题相对
的重大问题。 于特定内容表现出某些特殊的关联关系,且主题相
主题资源 自动采集是 目前 Web资源 自动采集 关度较高的网站将形成网络空间的网站群落 (即
的重要技术手段之一,它是将互联网看作是一个有 “抱团”现象),其分布呈现显著的生态学特性。本
向图,让网络蜘蛛智能地判断爬行的路线和采集信 文以此观点作为理论依据,以广度优先为原则设计
息资源。但是,互联网内容和规模呈现几何级数的 主题网站群发现算法。
增长,这种主题爬行方法很容 易受到 “Web孤
1 国内外研究现状
岛¨J’和 “蜘蛛陷阱”等问题的制约,导致信息采集
效率低下甚至失效。本文设想解决上述问题的一种 目前,国内外对网站信息资源有多种评价方法,
方案是让网络蜘蛛在有效范围内进行爬行,因此,面 不同的研究者或研究机构根据不同的研究 目的,提
对海量的Web信息资源,如何确定有效的采集范围 出了不同的评价指标。文献 [3]、[4]从信息内容、
是主题爬行技术亟待解决的问题。 用户服务、网站结构、技术支持、使用情况等方面,建
互联网是当今人类社会活动的主要网络空间。 立分类指标评价体系对网站资源进行评价;CNNIC
由此诞生了新型社会:网络社会,它的实质是人类社 每年发布的中国互联网发展调查报告中也包含了很
会生活的另一种社会形态 J。互联 网正如人与 自 多评价指标;1991年 BetsyRichmond提出 “10C”原
然环境所构成的生态系统一样,网络主体与网络环 则;1994年 DavidStoker等提出8条标准;1999年
境构成了网络生态系统。网络生态系统不仅仅是一 RobertHarris提出了“CARS检验体系 J’’等,这些方
个网络技术的系统,更是一个与网络发展有关的社 法中的大多数评价标准是基于人工分析方法,以定
会环境、信息与信息主体,人与人交互而组成的庞大 性评价为主。
网络社会系统。如果把信息的产生、加工处理、传递 对网站资源的定量分析一般采用链接分析
与共享等视为人与人交互的结果,那么网站的构建、 法 ],其中PageRank算法 和HITs算法 是定量
运营、竞争等在某种程度上反映了人的思想活动,因 评价网站信息资源的典型代表。PageRank算法由
收稿 日期:2013—08—20
基金项目:2013年湖南省高等学校教学改革项 目(湘教通(2013)37号)
作者简介:全立新(1969一),男,湖南花垣人 ,硕士,副教授,研究方向为语义Web、智能数据。
文档评论(0)