- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
互联网搜索引擎及其发展趋势
互联网搜索引擎技术及具发展趋势
【摘 耍】木文肖先介绍了互联网搜索引擎的技术原理及具发展状况,分析了现有的网 络支付系统基木构成及功能特点,并対传统的网络信息安全技术体系进行了研究探讨。
【关键字】搜索引擎检索趙势
随着互联网上资源的日趋丰富,面对拥有海量信息的Internet坏境,为了能快速、高 效地寻找到冇用信息,搜索引擎应运而牛。经过几年的发展和摸索,越來越贴近人们的需 求,搜索引擎的技术也得到了很大的发展,如今搜索引擎已经是互联网应用中不可缺少的 一部分。在浩如烟海的Internet ±,特别是其上的Web (World Wide Web万维网)上, 不会搜索,就不会上网。
二、 搜索引擎的概论
(一) 搜索引擎的定义
搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息 进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。
(二) 搜索引擎的组成
搜索引擎由搜索器、索引器、检索器和川户接口组成。
搜索器的其功能是在互联网中漫游,发现和搜集信息。
索引器的功能是理解搜索器所搜索到的信息,从中抽取出索引项,川于表示文档以及生 成文档库的索引表。
检索器的功能是根据用户的查询在索引库中快速检索文档,进行1相关度评价,对将要 输出的结果排序,并能按用户的查询需求合理反馈信息。
用户接口的作用是接纳用户查询、显示杳询结果、提供个性化查询项。
三、 搜索引擎的分类
(一)全文索引
全文搜索引擎引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜 索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与 用户杳询条件相匹配的记录,按一定的排列顺序返冋结果。
根据搜索结果來源的不同,全文搜索引擎可分为两类,一类拥有自己的网页抓取、索 引、检索系统,有独立的“蜘蛛”程序、或爬山、或“机器人”程序(这三种称法意义 相同),能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google 和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按口定的格式排列搜索结 果,如Lycos搜索引擎。
(二) 目录索引
L!录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按LI录分类的 网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键字进行查 询。LI录索引屮最具代表性的莫过于大名鼎鼎的Yahoo>新浪分类目录搜索。
(三) 元搜索引擎
这类搜索引擎一般都没有自己网络机器人及数据库,它们的搜索结果是通过调用、控制 和优化其它多个独立搜索引擎的搜索结果并以统一的格式在同一界而集中显示。元搜索引 擎虽没有“网络机器人” 2或“网络蜘蛛”,也无独立的索引数据库,但在检索请求捉 交、检索接口代理和检索结果显示等方而,均有自己研发的特色元搜索技术。比如
“MetaFisher元搜索引擎”。它就调用和整合了 Google、Yahoo、AlltheWeb.百度和 OpenFind等多家搜索引擎的数据。
(四) 垂直搜索引擎
垂直搜索是针对某一?个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库屮 的某类专门的信息进行一次整介,定向分字段抽取出需要的数据进行处理后再以某种形式 返回给用户。
垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取, 也就是将网页的非结构化数据抽取成特足的结构化信息数据,好比网贝搜索是以网页为最 小单位,基于视觉的网页块分析是以网页块为最小单位,而垂巴搜索是以结构化数据为最 小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最 后分词、索引再以搜索的方式满足用户的需求。整个过程中,数据由非结构化数据抽取 成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。
垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引繁、购物搜索、房产 搜索、人才搜索、地图搜索、mp3搜索、图片搜索…几乎各行各业各类信息都可以进一步 细化成各类的垂眉??搜索引擎。
举个例子來说明会更容易理解,比如购物搜索引擎,整体流程大致如下:抓取网页后, 对网页商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本简 介细分成“品牌、型号、CPU、内存、硬盘、显示屏、……”然后对信息进行清洗、去 重、分类、分析比较、数据挖掘,最后通过分词索引提供用户搜索、通过分析挖掘提供市 场行情报告。
垂肓搜索引擎是相对通川搜索引擎的信息量人、查询不准确、深3度不够等提出來的新 的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一 定价值的信息和相关服务。其特点就是“专、精、深”,口?具有行业色彩,相比较通
文档评论(0)