- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一、搜索类型
1.全文索引
全文索引引擎是名副其实的搜索引擎,国外代表有 Google,国内知名的百
度搜索。它们从互联网提取各个网站的信息 (以网页文字为主),建立起数据库,
并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
根据搜索结果来源的不同, 全文搜索引擎可分为两类: 一类拥有自己的网页
抓取、索引、检索系统(Indexer),有独立的 “蜘蛛 (”Spider)程序、或爬虫( Crawler)、
或 “机器人 ”(Robot)程序(这三种称法意义相同) ,能自建网页数据库,搜索结
果直接从自身的数据库中调用,上面提到的 Google 和百度就属于此类;另一类
则是租用其他搜索引擎的数据库, 并按自定的格式排列搜索结果, 如 Lycos 搜索
引擎。
2.目录索引
目录索引虽然有搜索功能, 但严格意义上不能称为真正的搜索引擎, 只是按
目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,
不依靠关键词( Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎
鼎的 Yahoo、新浪分类目录搜索。
3.元搜索引擎
元搜索引擎( META Search Engine)接受用户查询请求后,同时在多个搜索
引擎上搜索,并将结果返回给用户。著名的元搜索引擎有 InfoSpace、Dogpile、
Vivisimo 等,中文元搜索引擎中具代表性的是搜星搜索引擎。 在搜索结果排列方
面,有的直接按来源排列搜索结果,如 Dogpile;有的则按自定的规则将结果重
新排列组合,如 Vivisimo 。
“百谷虎 ”- baigoohoo
由于某家新闻媒体的报道,最近声名大振,高举着 “山寨 ”大旗,让国人开始
了解什么是山寨搜索引擎,名字极富创意。可惜由于搜索结果被并排挤在一起,
似乎没有什么实际使用价值。
4.其他非主流搜索引擎形式:垂直搜索引擎、集合式 ~、门户 ~、免费链接列表 ~
二、搜索原理
1.抓取网页
每个独立的搜索引擎都有自己的网页抓取程序( spider)。Spider 顺着网页中
的超链接,连续地抓取网页。 被抓取的网页被称之为网页快照。 由于互联网中超
链接的应用很普遍, 理论上,从一定范围的网页出发, 就能搜集到绝大多数的网
页。
2.处理网页
搜索引擎抓到网页后, 还要做大量的预处理工作, 才能提供检索服务。 其中,
最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分词(中
文)、判断网页类型、分析超链接、计算网页的重要度 /丰富度等。
3.提供检索服务
用户输入关键词进行检索, 搜索引擎从索引数据库中找到匹配该关键词的网
页;为了用户便于判断,除了网页标题和 URL 外,还会提供一段来自网页的摘
要以及其他信息。
全文搜索引擎原理:
在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数
据库的概念。 搜索引擎的自动信息搜集功能分两种。 一种是定期搜索, 即每隔一
段时间(比如 Google 一般是 28 天),搜索引擎主动派出 “蜘蛛 ”程序,对一定 IP
地址范围内的互联网站进行检索, 一旦发现新的网站, 它会自动提取网站的信息
和网址加入自己的数据库。
另一种是提交网站搜索, 即网站拥有者主动向搜索引擎提交网址, 它在一定
时间内( 2 天到数月不等)定向向你的网站派出 “蜘蛛 ”程序,扫描你的网站并将
有关信息存入数据库, 以备用户查询。 由于近年来搜索引擎索引规则发生了很大
变化,主动提交网址并不保证你的网站能进入搜索引擎数据库, 因此目前最好的
办法是多获得一些外部链接, 让搜索引擎有更多机会找到你并自动将你的网站收
录。
当用户以关键词查找信息时, 搜索引擎会在数据库中进行搜寻, 如果找到与
用户要求内容相符的网站, 便采用特殊的算法 —— 通常根据网页中关键词的匹配
程度,出现的位置 /频次,链接质量等 —— 计算出各网页的相关度及排名等级,
然后根据关联度高低,按顺序将这些网页链接返回给用户。
这种引擎它的特点是搜全率比较高。
区别目录搜索引擎:
与全文搜索引擎相比,目录索引有许多不同之处。
首先,搜索引擎属于自动网站检索, 而目录索引则完全依赖手工操作。 用户
提交网站后,目录编辑人员会亲自浏览你的网站, 然后根据一套自定的评判标准
甚至编辑人员的主观印象,决定是否接纳你的网站。
目录索引,顾名思义就是将网站分门别类地存放在相应的目录中, 因此用户
在查询信息时,可选择关键词搜索, 也可按分类目录逐层查找。 如以关键词搜索,
返回的结果跟搜索引擎一样, 也是根据信息关联程度排列网站, 只不过其中人为
因素要多一些。 如果按分层目录查找, 某一目录中网站的排名则是由标题字母的
先后顺序决定(也有例外) 。
目前,搜索
原创力文档


文档评论(0)