- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第一章绪论
1.1前言
随着网络信息资源的爆发式增长,互联网已经成为人们获取最新信息的主要
媒介。VqWVv技术的出现,以其直观的显示,简单的使用方式,多样的表现形式,
成为互联网传播信息的主要工具。同时也推动了互联网在日常生活中的普及,近
年来取得迅猛的发展,目前全球网站数量以30个月翻番的速度发展。据2008年
三月的统计,网站数量己达30亿,网站中的超链接数已达上千亿个…。然而,
在浩瀚的信息海洋中,用户往往赶到迷惘,过多的信息使人无法直接快速的获取
有效信息,形成了只依靠综合性的门户网站获取信息的习惯,大大的制约了互联
网的信息多样化的优势,用户在长期使用后,反而会觉得信息量不足。
在这种矛盾之下,用户迫切需求一种高效的辅助浏览工具,能够准确的搜索
特定的主题,搜索到特定主题所在的网站,因此以这样一种用户需求,搜索引擎
诞生了。
搜索引擎是通过特定的程序在互联网上收集信息,并对信息进行组织后提供
用户提供了很大的便利,这些搜索引擎通过资源采集器,从互联网上采集各类信
息,包括各种网页的网址,文本,以及图片等,并且在本地服务器上建立索引,
当用户提供查询申请时,搜索引擎根据用户提交的各种条件,选择符合的网页地
址反馈给用户,帮助用户迅速完成浏览操作。这些资源采集器就被称为网络爬虫,
它是一种以一定的策略漫游互联网的程序,以一个或者几个URL为起点,访问
整个互联网,知道没有符合条件的新URL产生而停止。
但是互联网的高速发展使得这些通用搜索引擎也开始无法满足迅速获取准
确信息的要求了,因为传统的爬虫搜索范围太广,而且专业化程度不高,没有对
信息内容进行分析,造成抓取回来的信息重复度高,数量太多,没有根据重要性
排序。这些问题的存在给用户带来了极大的不便,所以对搜索引擎引入搜索内容
更为精确的主题爬虫显得十分迫切。然而目前的主题爬虫所采用的两种基本抓取
网页的方式效率比较低下。本文提出了一种通过网页标题分析对主题爬虫的改进
方案,比较了引入标题分析前后的结果,论证了设计的可行性与可操作性,优化了
主题爬虫对同类型特定信息的抓取。然而首先将从最初步的概念逐步探讨这一思
路的可行性。
1.2搜索引擎概述
…j,JI流行的通用搜索引擎,被称为通用搜索引擎,这种引擎不会对搜索内容
进行筛选,不会对用户需求专业方向进行划分。通用搜索引擎系统一般由网络爬
虫、分渊器、索引器、查询器几部分组成【2J【31。网络爬虫负责网页信息的抓取工
作,一般情况下分词器和索引器一起使用,它们负责将抓取的网页内容进行分词
处理并F1动进行标引,建立索引数据库。查询器根据用户查询条件检索索引数据
J乍,j{:对检索结果进行排序和集合运算,如并集、交集运算,再提取网页简单摘要
信,色、反馈给查询用户。其结构如图l一1:
图1.1通用搜索引擎的结构
由结构图『lJ‘知,一般的通用搜索引擎是在互联网中发现信息;然后通过索引
器处理,建立索引数据库;最后根据用户给出的条件(一般为文字内容),使用
分训器分离出关键字,再由检索器检索出相关文档,并根据文档重要程度做出排
序后返刚给用户。
通用搜索引擎在诞生的初期给互联网用户带来了巨大的便利性,但是近年随
着互联网的迅猛发展,通用搜索引擎的弊端已经暴露出来,一方面面对庞大的互
联网络,爬虫爬取网络速度过慢,同时缺乏对搜索结果处理分析,搜索结果存在
大量相¨网页以及无关网页。因此垂直搜索引擎呼之欲出。
2
1.3主题搜索引擎概述
主题搜索引擎,即专业或垂直搜索引擎,就是专为查询某一领域或主题的信
息而产生的查询工具,它专门收录某一主题的信息。由它的概念可以看出,这种
搜索引擎的核心技术是主题爬行。主题爬行搜索在搜索方式上不同与传统的通用
搜索引擎,通用搜索引擎的搜索目的是以穷尽整个互联网为目的方式进行的,而
主题搜索则是在预先建立好主题信息模板上,搜集整个互联网上主题相关的信
息。这种搜索引擎的意义在于:主题爬行程序以若干个主题信息为主,通过预测
页面与主题的相关度,从而达到节约网络带宽以及存储的容量;主题爬行系统能
够根据网络的拓扑结构和网页的文本信息,判断链接相关链接主题的概率比较
高,从而提高主题页面的命中率,降低非主题页面的下载,这样能够提高爬行效
率,节约资源。主题爬行系统不需要穷尽整个网络,通过建立主题知识模型,并
且能够通过知识模型以及页
文档评论(0)