- 1、本文档共89页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第三搜索引擎
第三章 搜索引擎第一节搜索引擎概述 第二节常用搜索引擎介绍 一、搜索引擎的含义 引擎是引文“Engine”的音译词,代表发动机,搜索引擎即“Search Engine”具有导航的含义。目前关于搜索引擎的说法很多,国内还没有一个明确的定义。 第一节 搜索引擎概述 一般认为,搜索引擎是指对万维网站点资源和其他网络资源进行标引和检索的一类检索系统。由信息搜索器、索引器、检索器、和用户界面四部分组成。 二、搜索引擎的发展过程 ? 搜索引擎的起源可以上溯到1990年由加拿大蒙特利尔大学学生Alan Emtage开发的Archie。Archie用于检索分散在各FTP服务器上的文件,但其工作原理与现在的搜索引擎很接近。第一个现代意义上的搜索引擎出现在1994年7月。 1、1995年目录式的搜索盛行雅虎搜狐网易新浪 2、1996年新型搜索开始成熟inktomialtavistaoverture 3、1999年Google强势阻击 谷歌 4、2000年中文引擎开始崛起 百度 5、2004年竞争从特色开始 三、搜索引擎的组成 2、索引器(Indexer) 索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,并生成文档库的索引表。索引项有客观索引项和内容索引项两种:客观索引项与文档的语意内容无关,如作者名、URL、更新时间等等;内容索引项则是用来反映文档内容的,如关键词及其权重、短语、单字等等。 3、检索器(searcher) 其功能是处理用户查询要求。检索器根据用户输入的提问词,按照一定的算法,在索引数据库中进行提问词与索引词的模糊匹配,并对所有的查找出文档进行集合运算,将结果集按照基于内容和基于链接分析的方法进行相关度评价并排序,将最终形成的有序查询结果输出到用户界面。 四、搜索引擎的工作原理1、信息采集与处理2、通过对采集的信息进行有序组织建立索引库3、检索器根据用户需求进行信息检索4、检索结果的相关处理 五、搜索引擎的主要类型 1、目录式搜索引擎 目录式搜索引擎是人工干预型搜索引擎,其数据库由人工建立,主要通过人工发现信息。 目录界面一般采用分级结构,可从基本的大类的入口,一级级向下访问,通过层层点击直至找到所需资源,也可利用目录提供的搜索功能直接查询关键词。 目录导引型搜索引擎中最具代表性的是Yahoo ,Open Directory等。国内的搜狐、新浪等搜索也都属于这一类。 优点:层次、结构清晰,易于查找;多级类目,便于查询到具体明确的主题;网络信息资源经过人工筛选,查准率较高。 缺点:缺点是检索范围较小,查全率较低;没有统一的、科学的分类体系为依据,类目之间交叉,内容重复;需要投入较多的人力,不易跟上网络资源的增长,更新速度慢。 2、全文搜索引擎(关键词型)(通用型) 全文搜索引擎也称机器人搜索引擎、自动搜索式搜索引擎。它利用网络Robot自动搜索技术对网络各种资源进行抽取、标引、归类、排序,创建可按关键词查询的web网页索引数据库。当输入检索词后,搜索引擎会自动将其与存储在索引数据库中的信息特征进行比较匹配,提供包含该关键词信息的所有网址,并提供通往该网站(页)的连接。代表性的全文搜索引擎有Google、 百度等。 全文搜索引擎的优缺点: 优点:所收录的信息量巨大,索引数据库规模大,耗费人力资源较小,信息更新速度快,搜索功能强大,适合特性检索。 缺点:返回信息量过多,检准率较低;并且提供的检索结果重复链接较多,层次结构不清晰;给人一种繁多杂乱的感觉。对同一关键词的检索,不同全文搜索引擎反馈的结果相差很大,须从结果中进行筛选,费时费力。 六、搜索引擎的应用现状 从用户使用的角度,国外的调查发现: 网上搜索信息的人很少考虑如何找到他们所需要的信息,因此搜索信息时像动物猎食般盲目; 只有18%的用户表示总能在网上搜索到需要的信息。68%的用户说他们对搜索引擎很失望; 平均每个搜索者在12分钟的徒劳搜索后就感到恼火和受挫。 46%的人只会用同一个关键词搜啊搜啊,而且是在同一个搜索引擎。 国外的应用状况 那些每周平均花5个小时以上时间上网的人,将其上网时间的71%都花在了搜索引擎上; 人机界面高手nielsen(google的设计者)研究表明: 略超过1/2的互联网用户属于search-dominant, 约1/5用户属于 link-dominant, 其它用户的搜索倾向属于混合行为型。 search- dominant在到达一个网站后直接就奔向搜索按钮,他们对浏览网
文档评论(0)