网络链接分析理论(讲座).pptVIP

  1. 1、本文档共79页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络链接分析理论(讲座)

4.1链接分类理论 不同的实验证明:可用于链接分析的有效链接仅占20%左右。 链接分类研究的意义在于:从链接总体中剔除不符合“推荐、认可”的链接,以提高入链接、网络影响因子、PageRank算法等链接指标用于网页/网络重要性评价的效率。 4.1链接分类理论 目前学者们在理论方法和实证分析过程中得出了很多有意义的结论,但是也存在如下几个问题: 不同的学者根据不同的标准建立了不同的分类体系,这是不利于链接分析研究的。 当前国内外的链接分类研究主要依赖于小样本的主观分类,而对于海量链接,主观分类不适用,所以,下一步的研究方向应是针对海量链接开发自动链接分类方法(即“链接识别”)。 4.1链接分类理论 国外代表性的链接分类 学者 研究对象 分类 Borgman等 推荐链接 导航链,所有权链,社会链接和没有用的链接 A.G. Smith 合作链接 非实质性研究,实质性研究(一般信息链接,正式研究引用,支持赞助商/鸣谢,关于链接创建者的自链接,相关网页,地理信息,广告,软件下载九类) Bar Ilan 相关链接 面向研究的,教育相关的,职业或工作相关的,行政管理的,一般信息的,个人的,社会的,技术的,导航的,表面的,其他和无法定义的。 Jepson 资源链接 科学性质的,与科学相关,教学,低质量的,“噪音” Heting Chu 通讯链接 服务、主页、研究、教学 4.1链接分类理论 国内代表性链接关系分类 研究学者 研究对象 类型 动机 刘雁书等 站外链接 推荐链接 正反面引用。 合作链接 引用服务,主办单位,信息来源,内容相关。 相关链接 反映内容相关程度。 资源链接 链接被链网页的某种资源。 通讯链接 链接到通讯服务。 广告链接 商业广告,服务相关,个人网站资助性广告。 邱均平等 内部链接 网站结构链接 体现网站结构和层次关系。 信息关联链接 相当于参考文献和相关主题的链接。 站外链接 信息推荐链接 推荐相关内容网站,有的是商业目的。 信息来源链接 标明信息来源,表明知识产权、责任归属。 网络结构链接 根据访问目的选择网站,方便快速访问。 4.1链接分类理论 国内代表性链接关系分类(续) 袁毅 学术网站 推荐链接 肯定性链接 相关链接 内容相关,利用关系。 引用链接 内容引用,反映高质量网站。 扩展链接 背景资料,注视、数据链接。 评价链接 肯定或否定评价 关系链接 机构间纵向、横向、利益链接,用户链,背景链,合作链 其他 服务链、通讯链、结构链 4.2链接统计理论 链接统计研究常常依赖于一个未公开的假设——所有的链接是等价的,而实践中却并非如此。 链接统计的理论基础允许链接违背假设,这样的链接视为异常。有两种方法处理异常: 第一种是手工过滤,这种方法适合小型数据集; 第二种是使用ADM(Alternative Document Model,选择性文档模型),这种方法是完全自动化的。在某些情况下,使用ADM可以减少异常对其他数据的影响。 4.2链接统计理论 在统计链接数量之前需对链接进行分类,以便统计有效链接数量;其次还需要处理链接异常,因为异常将导致统计数量不准确。 常见的链接统计异常: 异常来源 异常原因 网站自链 对于目标页面质量的判断方法与站间互链不同 重复的链接 这些链接由计算机创建,没有遵循“逐个地”、“独立地”原则 互链数据库 这些链接由计算机创建,没有遵循“逐个地”、“独立地”原则 镜像站点 作者与主机站点无关 4.2链接统计理论 手工过滤是移除异常链接的一种方法。搜索引擎最先采用这种方法,它们保存爬虫不应该访问的站点列表,因为这些网站可能包含链接舞弊(重复链接以便在搜索引擎返回结果列表中获得更高的排名),或包含文本舞弊(也是为了获得“不公平”的优势),或包含不值得访问的内容,如蜘蛛陷阱、违法信息、色情信息或者庞大站点。 4.2链接统计理论 ADM是一种将网页聚合成概念文档的方法(启发法)。ADM根据URL特征,将网页分配给文档,目的是通过将类似的网页分配到同一个文档,减少网络链接行为的异常,以便相似网页中相关的链接仅仅被统计一次。 4.2链接统计理论 有四种主要的ADM,分别在“网页”、“目录”、“域名”和“站点”层面上聚合网页,如下所述: 网页/文件:为了提取链接,每一个单独的文件都视为一个文档。(截去URL中内部目标标志符“#”之前的部分,以避免同一个网页不同部分间的多重引用,然后每一个唯一的链接URL都视为一个单独的文档) 4.2链接统计理论 目录:同一个目录下的所有文件视为一个单独的文档。(将URL地址从最后一条斜线外截去) 域名:具有相同域名的所有文件视为一个单独的文档。(URL中只保留域名) 大学/站点:属于一所大学网站、或其他被定义站点的所有文件视为一个单独文档。(URL地

文档评论(0)

baoyue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档