搜索引擎要点解析.ppt

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1.1 搜索引擎的概念 1994年4月,Stanford University的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo!。 1994年7月20日,数据量为54000的Lycos正式发布。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要 。 天网搜索 “天网资源检索系统”(即天网搜索)是中国教育和科研计算机网示范工程应用系统课题之一,是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,由北京大学计算机系网络研究室设计开发,并于1997年10月29日正式在中国教育和科研网(CERnet)向广大Internet用户提供Web信息导航服务。 天网搜索 主要功能与特点 (1)界面简洁 (2)资源丰富,信息量大 (3)检索质量高 (4)响应速度快 (5)相关性强,查准率高 (6)使用方便 信息索引技术 信息索引就是创建文档信息的特征记录,以使用户能够快速地检索到所需信息。建立索引主要涉及到几个以下问题: ① 信息语词切分和语词词法分析 ② 进行词性标注及相关的自然语言处理 ③ 建立检索项索引 ④ 检索结果处理技术 1.6 中文搜索引擎的发展趋势 中文搜索引擎的发展趋势 1.支持目录式分类结构和全文检索 2.检索方法多样、查找手段完备 3.不仅提供受控语言检索,还支持自然语言检索 4.提供自动换库检索 5.提供多媒体检索功能 6.自动识别多种汉字编码 7.能够区分搜索结果的相关性 8.增加服务功能,提供全方位的信息服务 1.7 主要搜索引擎介绍 谷歌(Google)搜索 1.Google的功能与特点 (1)界面简洁 (2)资源丰富、内容广泛 (3)相关性高 (4)技术先进、搜索结果精确、排序公正 (5)搜索快速 (6)使用方便 (7)功能齐全 谷歌(Google)搜索 2.Google的检索方式 (1)简单搜索 (2)高级搜索 (3)查询结果 谷歌(Google)搜索 3.Google的不足 (1)其数据的更新速度无法进一步提高 (2)无法搜索动态生成的网页 (3)中文状态下的Google没有成人内容过滤功能 (4)目前对中国的用户还不支持“OR”和“*”等符号的使用 雅虎(Yahoo!)搜索 Yahoo!的特点: (1)界面简洁。雅虎的网站简介相当简练、严格,一般用很少的文字做客观描述,没有主观评论和类似于广告的夸张语言。网站界面友好,并且很人性化。 (2)分类目录准确、合理。中文 Yahoo!提供了一份规范、科学、层次丰富的中文网站分类目录,并且是通过一大批工程师手工编制的,使得在归类方面较其他网站更为准确、合理。 雅虎(Yahoo!)搜索 (3)数据量大,内容丰富。 (4)反应速度快、查准率高。由于分类是通过计算机专家手工完成的,因此所收录的网页经过筛选和系统组织,质量较高,条理性较强,检索结果接近用户的信息需求。 (5)功能齐全。Yahoo!提供了不同的查询功能。用户可以单击“目录”按钮,进入按目录查询的方式,在输入关键词后,单击“搜索”按钮,即刻就会得到全部相关网站的目录。 百度(baidu)搜索 1.核心技术:超链分析 超链分析技术,是新一代搜索引擎的关键技术,已为世界各大搜索引擎普遍采用。在学术界,一篇论文被引用得越多就说明其越好,学术价值就越高。超链分析就是通过分析链接网站的多少来评价被链接的网站质量,这保证了用户在百度搜索时,越受用户欢迎的内容排名越靠前。 百度(baidu)搜索 2.搜索速度更大、更新、更快 百度在中文互联网中,支持搜索8亿中文网页,是世界上最大的中文搜索引擎。 3.为中文用户度身定做 关键词自动提示:用户输入拼音,就能获得中文关键词正确提示。 中文搜索自动纠错;如果用户误输入错别字,可以自动给出正确关键词提示。 百度快照 百度(baidu)搜索 * * * * * * * 第1章 搜索引擎概述 主要内容 1.1 搜索引擎的概念 1.2 搜索引擎的发展史 1.3 搜索引擎的分类 1.4 搜索引擎的信息检索模型 1.5 建立搜索引擎的关键技术 1.6中文搜索引擎的发展趋势 基本知识 搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。 真正意义上的搜索引擎,通常指的是收集了Internet上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。 当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。 搜索引擎的原理 可以分为四步:从互联网上抓取网页、建立索引数据库、在索引数据库中搜索排序、对搜索结果进行处理和排序。 ①从互联网上抓取网页 利用能够从互联网上

文档评论(0)

挺进公司 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档