因特网上信息检索.pptVIP

下载本文档

4
0
约2.34千字
约 23页
2019-01-25 发布于浙江
举报
版权申诉

因特网上信息检索.ppt

1、本文档共23页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

阅读教材回答如下问题：网络信息检索的方法搜索引擎的分类及特点搜索引擎的工作过程因特网信息检索方法在因特网中信息检索的方法有三种： 1、基于超文本/超媒体的信息浏览从一个超文本/超媒体文档入手，沿着嵌入其中的、用户感兴趣的超链接区搜索信息 2、基于目录服务的信息查询根据信息的主题降网络上的信息资源进行分类，并以目录的形式组织和表现 3、基于搜索引擎的信息检索搜索引擎是一种信息检索工具，它从因特网上接受用户的查询请求，在数据库中进行检索，然后返回查询结果基于超文本/超媒体的信息浏览基于目录服务的信息查询基于搜索引擎的信息检索搜索引擎的产生最早的搜索引擎出现于1994年4月。斯坦福大学的两名博士生，美籍华人杨致远和美国人David Filo共同创办了超级目录索引雅虎（Yahoo），并成功地使搜索引擎的概念深入人心。 1994年起搜索引擎发展举例产生时间搜索工具开发组或公司网站特点 1994.4 Yahoo 斯坦福大学早期Yahoo数据是手工输入 1995.12 Altavista DEC公司第一个支持自然语言关键词和高级检索的引擎 1997.10 北大天网北大计算机研究室收录网页约6000万,有强大的FTP搜索功能 1998.9 Google 斯坦福大学提供网页评级动态摘要、网页快照，每天更新、多文档格式支持 2001.8 Baidu 百度公司快照、预览、相关词搜索、mp3、 flash搜索功能搜索引擎的分类按照信息收集方法和服务提供方式，搜索引擎可分为: 目录式搜索引擎全文搜索引擎元搜索引擎搜索引擎的分类类型定义举例目录搜索网络信息资源，通过人工整理分类，按照主题分类,并以层次树状形式进行组织的一类搜索引擎. 代表：雅虎新浪搜狐优点: 实实在在找到用户所关心内容分类,网站导航质量高缺点: 分类不够细,需要人工介入,目录的维护量大, 更新可能不够及时. 搜索引擎的分类类型定义举例全文搜索使用关键词到预先建好的或租用其它索引数据库查询信息的一类搜索引擎. 代表：百度谷歌优点: 信息量大、更新较及时、不需人工干预。缺点: 返回信息过多，有很多无关信息，广告也特别多。全文搜索引擎输入关键字查询信息排序索引数据库用户查询查询结果检索搜索搜索引擎的分类类型定义举例元搜索引擎元搜索引擎就是通过一个统一的用户界面向多个搜索引擎同时递交用户查询,返回结果去重合并,综合结果返回给用户.（没有自己的数据库）优点: 结果精确、全面，汇聚各大搜索引擎的结果。缺点: 检索速度较慢、牺牲个别搜索引擎性能，并非1+1=2 元搜索引擎示意图搜索引擎的工作原理目录式搜索引擎是以人工或半自动方式收集信息，有编辑人员查看信息后，人工形成信息摘要，并将信息至于事先确定的分类框架中。用户通过浏览分类目录来查看自己所需要的信息，在链接信息资源所在的位置。搜索引擎的工作原理 1、目录式搜索引擎是以人工或者半自动方式收集信息，由编辑人员查看信息后，人工形式信息摘要，并将信息置于事先确定的分类框架中搜索引擎的工作原理 2、全文搜索引擎并不能真正理解用户的查询内容，只能把匹配查询关键词与索引数据库中的内容进行匹配。全文搜索引擎的工作过程是：从网上抓取网页?建立索引数据库?在索引数据库中搜索排序?响应用户查询 1、如何从互联网抓取网页使用蜘蛛（Spider）系统程序，自动访问因特网，并沿着网页中所有的URL爬到其他网页，重复这一过程，把爬过的网页收集回来搜索引擎的蜘蛛（Spider）系统程序会定期重新访问所有网页，以实现该网站信息的更新蜘蛛模拟器 2、建立索引数据库由分析索引系统程序对蜘蛛收集到的网页进行分析，提取相关网页信息（包括网页的URL、编码类型、页面内容所包含的关键词、关键词位置、生成时间、大小等），进行大量复杂的计算（算出网页中每一个关键词的相关度，即出现的次数），然后放到响应的索引数据库中 3、在索引数据库中搜索排序当用户输入关键词搜索后，由搜索程序从网页索引数据库中找到符合该关键词的所有网页，按照该关键词在各网页中的相关度即次数，进行排序，并返回给用户，相关度越高，排名越靠前 4、查询和响应选择最好的搜索工具每一个搜索都是不同的，如果你为每一个搜索都选择最好的搜索工具，那么每次你都会得到最好