搜索引攀中主题爬虫的研究.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
搜索引攀中主题爬虫的研究

硕士论文 搜索引攀中主题爬虫的研究与实现 1.绪论 Ll 课题背景 该课题属于计算机应用领域,课题源于某公司研究项目:主题搜索引擎的设计 与开发。 随着nItrnee灯Intrnaet的迅速发展,网络对我们的影响己经越来越大。而在网上 发展最为迅猛的WW认了(从勺rldwideweb)技术,以其直观、方便的使用方式和丰 富的表达能力,已逐渐成为Intemet上最重要的信息发布和传输方式。随着网络信 息资源的急剧增长,越来越多的信息涌到人们的面前,搜索引擎就是在这样的背景 下出现的,并且已经发挥出不可替代的作用,成为帮助人们从浩瀚的信息海洋中获 取自己想要的信息的有效工具和一种举足轻重的网络应用手段. 搜索引擎技术出现于二十世纪九十年代,自它出现之后,全球信息网就融入了 一个巨大的信息膨胀空间。网络中信息的数量增长得非常快,同时网络用户的数量 也随之快速的增加,他们经常从搜索引擎开始在网上冲浪。Intemet的迅速发展使搜 寻引擎迅速地更新。现今,搜索引擎所解决的问题不论在质量还是数量上都达到了 令人惊叹的地步。 搜索引擎是为了解决如何在知识海洋中遨游而出现的技术.搜索引擎以一定的 策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户 提供检索服务,从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联 网上非常重要的网络服务,搜索引擎已经成为人们在网络中的 “导游”。搜索引擎 技术因而成为计算机工业界和学术界争相研究、开发的对象。 作为搜索引擎的基础和组成部分,web信息采集正发挥着举足轻重的作用,并 且随着应用的深化和技术的发展,它也越来越多的应用于站点结构分析、页面有效 性分析、Web图进化、内容安全检测、用户兴趣挖掘以及个性化信息获取等多种服 务和研究中。 传统的搜索引擎信息采集的目标就是尽可能多地采集信息页面,甚至是整个 W亡b上的资源。随着WWW信息的爆炸性增长,信息采集的速度越来越不能满足实 际应用的需要。最近的试验表明,即使大型的搜索引擎,它对W比的覆盖率也只有 03一0001,,1。解决这一问题的直接办法是升级信息采集器的硬件,采用处理能力更强 的计算机系统,然而这种方法的扩展性有限,性价比也不高。一个更好的解决方法 是采用分布式方法来提高并行能力,但是并行不但增加了系统的开销和设计的复杂 硕十论文 搜索引攀中主题爬虫的研究与实现 性,并且并行换来的效益也随着并行采集器数目的增加而显著地减小.目前,一般 的大型搜索引擎都采用了并行机制,但并行带来的改善效果仍远不能满足人们的需 要,人们需要从其它角度改善目前的困境。 针对上述情况,另一种形式的搜索引擎悄然出现,它可以在较小的范围内取得 比通用搜索引擎更令人满意的结果,以满足某些特定用户的需要,这就是主题式搜 索引擎。 1.2 相关研究内容 1.2.1 搜索引擎 所谓搜索引擎,就是一种指能够自动对WWW资源建立索引或进行主题分类,并 通过查询为用户返回相关资源的系统.目前,网络上使用的搜索引擎很多,像 Alvattsia、nIofeske、Yhaoo等都是网络上非常著名的搜索引擎,它们所采用的技术和 实现的方法各有其特点。按照信息搜索方法和查询方式的不同,搜索引擎的发展可以 分为以下四代: 1.基于目录的搜索引擎。这类搜索引擎主要是利用人工分类方法将网络信息按 主题分类,建立可浏览等级式搜索引擎,向用户提供服务。具体的实现是各大网站管 理者根据搜索引擎的规范提供站点的描述,搜索引擎能根据这些描述由编辑员来建立 数据库。如Yhaoo就是这类搜索引擎,它的优点是网页准确度很高;缺点是索引库的 更新需要人工干预,所以速度慢,覆盖面小,费用高。 2基于Robot的搜索引擎。它的特点是网页信息的采集不需要人工干预,主要是 利用一种称为Robot的软件程序,自动在网络中爬行,进行信息采集、处理,提供查 询的服务,并能够自动更新索引库。这类搜索引擎的典型代表是Googl。,它是利用网 络中普遍存在的超链接结构,自动抓取网页。它的优点是费用较低,缺点是分类不精 确,误检、漏检率高。 3.以人工智能为特点的搜索引擎。第三代搜索引擎的特征是加入了人工智能的 成果,增加搜索引擎与用户的交互,减少两者之间信息的不对称。采用Wbe数据挖掘 技术,自动分类技术等,出现了主题和地域搜索服务

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档