搜索引擎原理摘要.docVIP

  • 23
  • 0
  • 约4.99千字
  • 约 7页
  • 2016-05-01 发布于湖北
  • 举报
【1】搜索引擎概述 过去的15年间,互联网信息急剧膨胀,靠人工的方式去筛选获取有用信息不再可能,因此搜索引擎应运而生。根据其发展,可以将其划为四个时代。 分类目录。yahoo是这个时期的代表,采用纯人工方式收集,质量较高,但效率低。 文本检索。采用了经典的信息检索模型,主要查询用户关键词语网页内容相似度,收录容量增加,但质量不是很好。如,早期的AltaVista. 链接分析。典型:Google的PageRank,极大扩充了网页内容,质量有提高,随之而来各种作弊方法。 用户为中心?现在的大部分搜索引擎对相同查询返回相同的结果,但是不同用户可能关注不一样,未来也许更多考虑用户的差异性。 说到发展,不得不提搜索引擎的三个主要目标,无论它往何方发展,以下三个目标总是一个很好的评估标准: 更全:如何把更多相关的网页收录? 更快:如何从数以亿计的网页中迅速返回结果? 更准:如何把用户最感兴趣的结果呈现? 这一部分主要从以下四个部分来讲述搜索引擎的基础技术,这四个部分也是搜索引擎的重要环节。 网络爬虫 建立索引 内容检索 链接分析 网络爬虫是搜索引擎的下载系统,它的作用是内容的获取,手段就是在万维网中通过链接不断爬取收集各类网页。但是互联网的页面浩如烟海,而且每天不断有新的内容产生,根据爬取目标和范围,可以将爬虫简单分为以下几类:? 批量性爬虫:明确的抓取目标和范围,达到即停止 增量型爬虫:应

文档评论(0)

1亿VIP精品文档

相关文档