数码产品信息的主题爬虫设计.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数码产品信息的主题爬虫设计 0 查询结果的干扰 自web站点出现以来,该网站一直在开发。通用搜索引擎是基于整个Web采集信息,采集的页面数量非常大,因此在检索的结果中,包含了大量与查询不相关或相关性很小的内容,这些查询结果都极大地干扰到了用户。随着Web信息的急剧膨胀,这种干扰也越来越严重,同时用户也越来越渴望得到与特定主题相关的信息。通用搜索引擎向用户提供几乎所有类型、任何主题的资源,这显然已经不能满足用户针对特定主题的查询要求。针对这种情况,需要一个数据全面深入精确且更新及时的主题搜索引擎。 1 开展特定领域、特定人群开展的检索服务 主题搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等因素而提出来的新的搜索引擎服务模式,它是通用搜索引擎在某个类别的专业化,就是针对性地为某一特定主题、特定领域、特定人群或是特定需求提供的信息检索服务。通用搜索引擎好比是“超市”,商品应有尽有,而主题搜索引擎就好比是“家具城”、“电脑城”,提供专项服务。主题搜索引擎因为具有较强的领域针对性,能够排除很多冗余信息,在很大程度上减少了不相关的检索结果,从而提高了检索的准确性。主题搜索引擎与通用搜索引擎在工作原理上是相似的,也是由信息采集、信息处理和信息检索三部分组成。不同的是主题搜索引擎只采集与主题相关的信息。主题爬虫就是为其搜集与主题相关的网页资源。 2 主题设计 2.1 种子网页的体系结构 如果将互联网看成是一张图,那么每个网页就是其中的节点,网页与网页之间的链接则构成弧,用图的遍历算法通过弧可以遍历每个节点。爬虫就是这样顺着链接按图索骥,爬行整个网络的。爬虫从种子网页出发,向服务器发送HTTP请求,请求URL对应的资源,分析下载的页面,提取链接,将链接加入URL队列,以便后续读取。普通爬虫的体系结构如图1所示。 种子网页用来赋予抓取模块初始的URL,抓取模块以这些初始URL去Internet上爬行;爬行模块向URL对应的Server发送HTTP请求,请求URL所标识的资源,Server返回响应消息,响应消息中的响应正文即为我们请求的资源;链接抓取模块,得到我们请求的网页之后,抓取其中的超级链接,将没有访问过的链接存放到URL哈希表中。抓取到的网页存放在网页库中,为后面的预处理索引模块提供基础。 主题爬虫是以普通爬虫为基础的,实际上它是对普通爬虫功能上的扩充,用于搜集与主题相关的网页,其组成如图2所示。包括种子网页、主题确立模块、爬行模块、过滤模块、链接抓取模块和排序模块等等。种子网页和普通爬虫的种子网页的作用一样,爬虫以种子网页为起始网页爬行,但是所不同的是种子网页的选取有一定的限制;主题确立模块用于确立爬行的主题;爬行模块和普通爬虫的相应模块功能相同;过滤模块对爬行的网页进行相关性判定,提取与主题相关性强的网页;链接抓取是抓取网页中的链接以便爬虫的后续爬行;排序模块是对与主题相关的网页进行重要性判定。 2.2 种子网页的自动选取 由于主题搜索引擎是面向特定主题或是领域的,所以初始种子网页的选取是比较关键的。种子网页首先应该是与该主题相关的,否则爬虫无法工作。那么如何来选取种子网页呢?种子网页的选取可以自动选取,但是不确定因素太多,作者采用的是人工干预方式,好处是实现简单,而且比较准确;缺点是加入了过多的主观因素,导致种子选取不够全面,这点通过下面的主题确立模块改善。首先,通过咨询该领域专家获取主题关键词集合,利用这些关键词去元搜索引擎中查找,从中选取质量较高的网页作为种子网页。关键词主要集中于数码产品的性能元素。 2.3 .基于文本特征的权值提取 关键词集合采取专家意见,比较准确,可以将专家提供的关键词集合作为主题,但是由于主观因素分量太重,导致可能会有遗漏不全面,所以需要重设主题关键词集合。本文采用的是专家意见和特征提取相结合的方式。特征提取是利用一个与主题相关的网页集合,由程序自动提取网页集合的共同特征。这里利用种子网页集合更新主题关键词集合。 特征提取主要基于以下两种方式: (1)基于主题词典的特征词向量提取主题搜索引擎网页的特征项一般都是专业词汇或是特定领域的常见词汇,所以用主题相关的词条才能更好地表征网页。参照主题词典进行特征提取,只匹配那些在词典中存在的词,文档向量空间维数大大降低,可以用少量的词汇较好地涵盖某一主题的同时降低计算复杂度。这种方式存在的缺陷在于特征项的权值量化不够精确,不具备全面概括性。本文采用的是下面一种方式。 (2)基于权重特征词提取文本词条数量众多,如果用文本中的所有词条做文本向量,向量空间的维数可想而知,进而影响系统效率,而且文本词条包括大量如停用词等与主题没有多大关联的词条,所以必须进行特征提取,用有代表性的特征词表征网页。这里用到向量空间模型VSM(Vector Space Model)

文档评论(0)

186****7870 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档