基于VSM主题爬虫爬行策略的研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于VSM主题爬虫爬行策略的研究

2014 年第 2 期 信息通信 2014 (总第 134 期 INFORMATION COMMUNICATIONS (Sum. No 134 基于VSM 主题爬虫爬行策略的研究 张 锦,罗 钊 兰州交通大学电信学院,甘肃兰州730070 ) 要:网络爬虫作为搜索引擎重要的组成部分,其抓取网页资源主题相关性的高低直接决定爬虫性能的好坏。文章在 VSM 模型的基础上引入关键词的同义、继承、属性等关系的相关词汇来增强VSM 模型的语义,通过实验进行验证,改进 能够取得较好的抓取效果。 关键词:主题爬虫;爬行;V SM 中图分类号:TP391 文献标识码:A 文章编号:1673-1131(2014 )02-0037-02 0 引言 VSM 即向量空间模型的基本思想是:利用文本中词与词 之间的不相关性,使用向量来表示文本,这样的话就简化了模 随着互联网的快速发展,网络上的信息量也急速增加。传 型的复杂性。在V SM 模型中,每 篇文档都是由词组成的(,,, 统的搜索引擎已经不可能提供给用户既全面又具有专业深度 …, , 根据不同的词在文档中的重要程度,对其赋予 定的权 的服务了,垂直搜索引擎应运而生。主题网络爬虫作为垂直 值,每一个词对应一个权值,这样用横坐标表示,纵坐标表示, 搜索引擎的抓取模块,负责搜集网上的网页信息。主题爬虫 经过把(,,, …, 进行分解,得到的正交此条的矢量组就构成了 的好坏直接影响着搜索引擎的服务质量,故作为搜索引擎的 表示该文档的向量空间。 重要组成部分,尤其值得去研究和改进。 主题爬行是在预定主题的指导下最大限度地在网络上搜 1 改进的VSM [ ] 索、抓取与主题相关的网页,并尽量避免爬行不相关的网页1 由于传统VSM 的无语义性,本文引入关键词的同义、继 [ ,] 通用爬虫主要用于通用搜索引擎中,它的目的是尽可能多地 3 4 承、属性等关系的相关词汇来增加VSM 的语义性 。一个完 覆盖网络中的页面, 般采用广度优先算法。而主题爬虫常 善的领域本体是最好的主题描述。在本体中,通过概念的同 用在垂直搜索引擎中,它的目标是尽可能多地搜集与给定主 义、继承、属性等关系对主题进行描述,这样对主题词的语义 题相关的网页,使得到的主题资源更专业更全面,从而能够更 有了好的概括。 好地为网

文档评论(0)

hhuiws1482 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5024214302000003

1亿VIP精品文档

相关文档