chapter搜索引擎与网络信息检索.pptxVIP

下载本文档

4
0
约1.12万字
约 110页
2020-01-22 发布于上海
举报
版权申诉

chapter搜索引擎与网络信息检索.pptx

1、本文档共110页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第一节搜索引擎的原理和发展概况1、网络信息资源种类WWW信息资源：web网页FTP信息资源：远程计算机上的文件夹Blog信息资源：博客、播客等等信息资源Telenet信息资源：直接调用远程主机BBS 、新闻组信息资源：相当于论坛信息P2P信息资源：私人计算机上的信息资源数据库和收费网站：如三大库三大馆2、网络信息资源的特点信息量大、传播广泛信息类型多样、内容丰富信息时效性强、变化频繁信息分散无序、但关联程度高信息缺乏管理、良莠不齐所以在网络信息检索中，我们常常要借助于搜索引擎来帮助我们“大海里捞针”。3、搜索引擎的概念搜索引擎Search EngineInternet网络信息检索工具4、搜索引擎的发展历史搜索引擎的起源——Archie 所有搜索引擎的祖先，是1990年由蒙特利尔的McGill University三名学生发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统，于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序，但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表，用户必须输入精确的文件名搜索，然后Archie会告诉用户哪一个FTP地址可以下载该文件。早期的另一个搜索工具Gopher 由于Archie深受欢迎，受其启发，Nevada System Computing Services大学于1993年开发了一个Gopher（http://cnet.windsor.ns.ca/Help/Inet/gopher.htmlGopher FAQ）搜索工具Veronica（/research/electron/internet/veronica.htmVeronica FAQ）。Jughead是后来另一个Gopher搜索工具。现在这个工具主要用在国外大型图书馆的信息检索上。第二代搜索：目录式搜索 Yahoo! 1994年4月，斯坦福大学的两名博士生，美籍华人杨致远和David Filo共同创办了/Yahoo）。随着访问量和收录链接数的增长，Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的，所以不能真正被归为搜索引擎，事实上只是一个可搜索的目录。Yahoo!中收录的网站，因为都附有简介信息，所以搜索效率明显提高。Yahoo!几乎成为20世纪90年代的因特网的代名词。好听不好用的元搜索引擎 1995年，一种新的搜索引擎形式出现了——元搜索引擎（/searchday/02/sd0918-meta1.htmlMeta Search Engine）。用户只需提交一次搜索请求，由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎，并将从各独立搜索引擎返回的所有查询结果，集中起来处理后再返回给用户。第一个元搜索引擎，是Washington大学硕士生 /web/20010407110524//homes/speed/home.htmlEric Selberg 和 /homes/etzioni/Oren Etzioni 的 /Metacrawler。元搜索引擎概念上好听，但搜索效果始终不理想，所以没有哪个元搜索引擎有过强势地位。第三代搜索：网页搜索它们都属于网页自动搜索引擎，有的还带有智能分析或FTP、P2P搜索功能5、搜索引擎的工作原理搜索引擎并不真正搜索互联网，它搜索的实际上是预先整理好的网页索引数据库。搜索引擎至少由三部分组成：爬行器（即机器人、蜘蛛等搜索程序）索引生成器（即网页索引数据库）查询检索器（即用户检索界面）随着搜索引擎的发展，许多搜索引擎在此基础上增加特色功能。如百度增加了监控程序。搜索引擎的工作原理就像超市因特网查询检索器（用户查询）索引生成器（网页数据库）爬行器（蜘蛛）第一步：从互联网上抓取网页利用能够从互联网上自动收集网页的Spider系统程序，自动访问互联网，并沿着任何网页中的所有URL爬到其它网页，重复这过程，并把爬过的所有网页收集回来。因特网第二步：建立索引数据库由分析索引系统程序对收集回来的网页进行分析，提取相关网页信息（包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等），根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页索引数据库。搜索引擎的Spider一般要定期重新访问所有网页（各搜索引擎的周期不同，可能是几天、几周或几月，也可能对不同重要性的网页有不同的更新频率），更新网页索引数据库，以反映出网页内容的更新情况，增加新的网页信息，去除死链接，并根据网页内容和链接关系的变化重新排序。这样，网页的具体内容和变化