- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎发展综述 主要内容 搜索引擎的产生、发展过程 搜索引擎的分类及原理 搜索引擎分类与检索技术的分析和展望 搜索引擎发展史 产生:1990年-Archie-蒙特利尔大学的Alan Emtage开发的ftp搜索系统。 1993年10月,ALIWEB系统:网站自己提交索引信息。(yahoo) 1993年底,基于spider的搜索引擎出现 1994年4月,yahoo:自附简介信息,效率高 WebCrawler:支持全文检索 1994年7月,Lycos:网页自动摘要 1995年,元搜索引擎Metacrawler 1995年12月,Altavista:自然语言搜索,高级搜索语法(AND、NOT、OR) 1997年,天网:教育网优势、ftp搜索、主题搜索 1998年,google:pagerank、动态摘要、网页快照等。 1999年,Fast/AllTheWeb:利用ODP自动分类 2001年,Teoma:类似自动分类的refine Baidu:最大的中文数据库 搜索引擎分类 严格意义上的搜索引擎 目录索引 元搜索引擎 基于目录索引的搜索引擎原理 实际上是按目录分类的网站链接列表 网站所有者向搜索引擎提交网站,并人工填写网站简介信息,手工操作超级目录索引。 例如:yahoo 标准的搜索引擎工作原理 自动信息收集功能 定期搜索,派出spider程序对一定范围内的网站进行检索,发现新的或更新后的网站会自动提取网站信息加入数据库。 网站所有者主动向搜索引擎提交网址,然后搜索引擎在一定时间内派出spider程序搜集有关信息加入数据库。(天网) 检索与排序技术 索引信息检索 全文检索 超链分析技术 超链分析技术 除了分析网页本身内容,还分析所有指向该网页的链接的url、文本甚至链接周围的文字。 Google的PageRank技术 检索结果排序的新技术 网页权值随关键词的变化而改变 WiseNut 网页检索中的P2P技术应用 -对等搜索 通过共享所有硬盘上的文件、目录乃至整个硬盘,用户搜索时无需通过Web、不受信息文档格式的限制。 * * 指导教师:王轩 报 告 人:延霞 从互联网抓取网页 建立索引数据库 检索排序 松花湖风 光介绍 A ……. 湖泊 …… …… B ……. 湖泊 …… …… C ……. 湖泊 …… …… D ……. 湖泊 …… …… E ……. 湖泊 …… …… 链接1 链接2 100 53 链接1 链接2 链接3 9 50 3 3 网页 InfoText InfoText 链接 InfoText
文档评论(0)