- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章搜索引擎工作原理.ppt
电子商务 第二章 搜索引擎工作原理 章节内容 搜索引擎发展历史 搜索引擎分类 搜索引擎工作原理 搜索引擎介绍 小结 2.1 搜索引擎发展历史 1990年第一个互联网上的搜索引擎出现Archie。搜索FTP服务器上的文件。 1993年 第一个web搜索引擎出现,只收集网址 1994年,infosedk创立(李彦宏),4月第一个全文搜索引擎WebCrawler推出。 1995年 域名注册。Yahoo公司成立,Excite搜索引擎正式上线。 1996年 Google创始人 Larry page研究项目(名字BackRub)开始, 1997年改名google 1998年overtrue正式开始出售搜索服务 1999年 Lycos停止自己的搜索技术。开始使用AllTheWeb数据。 2000年 google推出了Adwords。按显示付费,提供搜索广告服务。 2001年百度作为搜索引擎正式上线。 2002年google推出PPC,按点击付费。 2003年微软MSN开始研发自己的搜索引擎技术。 2005年百度上市 2006年微软推出广告系统(AdCenter)。 2009年微软live searche 改名为bing 2010yahoo 使用bing搜索数据。 搜索引擎介绍 一 个 搜 索引擎程序主要由搜索器、索引器.检索器和用户接口等四个部分组成,主要存储设备由页面存储器和存储桶两部分组成。 搜索器:爬虫 抓取 压缩 存储库 索引器:存储库提取网页信息,分析和分解,建立关键字索引,初步排序处理,存入存储桶,即硬件存储单元。 用户通过用户接口提交查询,检索器根据输入关键词,在索引器和存储桶进行查找,并且采用算法进行对结果的最终排序 2.2 搜索引擎分类 全文搜索引擎 目录搜索引擎 元搜索引擎 全文搜索引擎 全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。 最常用的全文搜索引擎有百度、谷歌(Google)等。与之相对应的是目录索引类搜索引擎。 全文检索的方法主要分为按字检索和按词检索两种。按字检索是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。对于各种不同的语言而言,字有不同的含义,比如英文中字与词实际上是合一的,而中文中字与词有很大分别。按词检索指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。英文等西方文字由于按照空白切分词,因此实现上与按字处理类似,添加同义处理也很容易。 采用的技术 搜索引擎面临大量的用户检索需求(几十~几千点击/秒),要求搜索引擎在检索程序的设计上要高效,尽可能的将大运算量的工作在索引建立时完成,使检索时的运算压力能够承受,一般的数据库查询技术无法实现全文搜索的时间要求,因此,目前全文搜索引擎通常使用倒排索引技术: 倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。 有两种不同的反向索引形式: 一条记录的水平反向索引(或者反向档案索引)包含每个引用单词的文档的列表。 一个单词的水平反向索引(或者完全反向索引)又包含每个单词在一个文档中的位置。[1] 后者的形式提供了更多的兼容性(比如短语搜索),但是需要更多的时间和空间来创建。 目录搜索引擎 目录搜索引擎是以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。目录搜索引擎虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息 。 元搜索引擎 元搜索引擎就是通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。元搜索引擎就是通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。元搜索引擎由三部分组成,即:检索请求提交机制、检索接口代理机制、检索结果显示机制。“请求提交”负责实现用户“个性化”的检索设置要求,包括调用哪些搜索引擎、检索时间限制、结果数量限制等。“接口代理”负责
您可能关注的文档
- 第二十三章旋转课题学习图案设计.ppt
- 第二十三章重力流沉积及沉积相.doc
- 第二十三课绿色蝈蝈新导学案.doc
- 第二十九讲应用层(三).ppt
- 第二十二章一元二次方程(复习).ppt
- 第二十二章一元二次方程钢城五中欢迎您.doc
- 第二十二章合成高分子化合物广东嘉应学院.doc
- 第二十二章量子论初步丰台区课程改革平台.ppt
- 第二十二讲原子核.ppt
- 第二十二讲园幂定理.doc
- 福建省三明市沙县区三明北附高级中学高一下学期4月期中考试政治试题(解析版)-A4.docx
- 2025届福建省福建省部分地市诊断性联考二模政治试题(原卷版)-A4.docx
- 福建省福宁古五校教学联合体高二下学期4月期中质量监测政治试题(原卷版)-A4.docx
- 2025年甘肃省平凉市庄浪县中考一模道德与法治试题-A4.docx
- 2025届福建省福建省部分地市诊断性联考二模政治试题(解析版)-A4.docx
- 2023-2024 学年第一学期高二第一次月考 试卷(2).pdf
- 2025届福建省福州市恒一高级中学等学校高三第二次学情检测政治试题(原卷版)-A4.docx
- 甘肃省定西市陇西县崇文中学联考八年级4月月考道德与法治试题(解析版)-A4.docx
- 福建省福宁古五校教学联合体高二下学期4月期中质量监测政治试题(解析版)-A4.docx
- 甘肃省镇原县城关初中2024-2025学年上学期七年级英语期末模拟测试卷(四)-A4.docx
原创力文档


文档评论(0)