- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
阅读教材回答如下问题: 网络信息检索的方法 搜索引擎的分类及特点 搜索引擎的工作过程 因特网信息检索方法 在因特网中信息检索的方法有三种: 1、基于超文本/超媒体的信息浏览 从一个超文本/超媒体文档入手,沿着嵌入其中的、用户感兴趣的超链接区搜索信息 2、基于目录服务的信息查询 根据信息的主题降网络上的信息资源进行分类,并以目录的形式组织和表现 3、基于搜索引擎的信息检索 搜索引擎是一种信息检索工具,它从因特网上接受用户的查询请求,在数据库中进行检索,然后返回查询结果 基于超文本/超媒体的信息浏览 基于目录服务的信息查询 基于搜索引擎的信息检索 搜索引擎的产生 最早的搜索引擎出现于1994年4月。斯坦福大学的两名博士生,美籍华人杨致远和美国人David Filo共同创办了超级目录索引雅虎(Yahoo),并成功地使搜索引擎的概念深入人心。 1994年起搜索引擎发展举例 产生时间 搜索工具 开发组或公司 网站特点 1994.4 Yahoo 斯坦福大学 早期Yahoo数据是手工输入 1995.12 Altavista DEC公司 第一个支持自然语言关键词和高级检索的引擎 1997.10 北大天网 北大计算机研究室 收录网页约6000万,有强大的FTP搜索功能 1998.9 Google 斯坦福大学 提供网页评级动态摘要、网页快照,每天更新、多文档格式支持 2001.8 Baidu 百度公司 快照、预览、相关词搜索、mp3、 flash搜索功能 搜索引擎的分类 按照信息收集方法和服务提供方式,搜索引擎可分为: 目录式搜索引擎 全文搜索引擎 元搜索引擎 搜索引擎的分类 类型 定义 举例 目录搜索 网络信息资源,通过人工整理分类,按照主题分类,并以层次树状形式进行组织的一类搜索引擎. 代表:雅虎 新浪 搜狐 优点: 实实在在找到用户所关心内容分类,网站导航质量高 缺点: 分类不够细,需要人工介入,目录的维护量大, 更新可 能不够及时. 搜索引擎的分类 类型 定义 举例 全文搜索 使用关键词到预先建好的或租用其它索引数据库查询信息的一类搜索引擎. 代表:百度 谷歌 优点: 信息量大、更新较及时、不需人工干预。 缺点: 返回信息过多,有很多无关信息,广告也特别多。 全文搜索引擎 输入关键字 查询信息排序 索引 数据库 用户查询 查询结果 检索 搜索 搜索引擎的分类 类型 定义 举例 元搜索引擎 元搜索引擎就是通过一个统一的用户界面向多个搜索引擎同时递交用户查询,返回结果去重合并,综合结果返回给用户.(没有自己的数据库) 优点: 结果精确、全面,汇聚各大搜索引擎的结果。 缺点: 检索速度较慢、牺牲个别搜索引擎性能,并非1+1=2 元搜索引擎示意图 搜索引擎的工作原理 目录式搜索引擎是以人工或半自动方式收集信息,有编辑人员查看信息后,人工形成信息摘要,并将信息至于事先确定的分类框架中。用户通过浏览分类目录来查看自己所需要的信息,在链接信息资源所在的位置。 搜索引擎的工作原理 1、目录式搜索引擎是以人工或者半自动方式收集信息,由编辑人员查看信息后,人工形式信息摘要,并将信息置于事先确定的分类框架中 搜索引擎的工作原理 2、全文搜索引擎并不能真正理解用户的查询内容,只能把匹配查询关键词与索引数据库中的内容进行匹配。 全文搜索引擎的工作过程是: 从网上抓取网页?建立索引数据库?在索引数据库中搜索排序?响应用户查询 1、如何从互联网抓取网页 使用蜘蛛(Spider)系统程序,自动访问因特网,并沿着网页中所有的URL爬到其他网页,重复这一过程,把爬过的网页收集回来 搜索引擎的蜘蛛(Spider)系统程序会定期重新访问所有网页,以实现该网站信息的更新 蜘蛛模拟器 2、建立索引数据库 由分析索引系统程序对蜘蛛收集到的网页进行分析,提取相关网页信息(包括网页的URL、编码类型、页面内容所包含的关键词、关键词位置、生成时间、大小等),进行大量复杂的计算(算出网页中每一个关键词的相关度,即出现的次数),然后放到响应的索引数据库中 3、在索引数据库中搜索排序 当用户输入关键词搜索后,由搜索程序从网页索引数据库中找到符合该关键词的所有网页,按照该关键词在各网页中的相关度即次数,进行排序,并返回给用户,相关度越高,排名越靠前 4、查询和响应 选择最好的搜索工具 每一个搜索都是不同的,如果你为每一个搜索都选择最好的搜索工具,那么每次你都会得到最好
您可能关注的文档
最近下载
- 肯尼亚建筑市场行业报告.pptx
- 浙江杭州余杭交通集团有限公司招聘笔试题库2023.pdf VIP
- 人工胆囊、人工胆囊设备和人工胆囊在胆囊手术中的应用.pdf VIP
- 重力与弹力高一上学期物理人教版2019必修第一册+.pptx VIP
- 胃癌的诊治现状与进展.pptx VIP
- 数控压装压力机 第2部分:技术条件.docx VIP
- 【课件】匀变速直线运动速度与时间的关系+课件-高一上学期物理人教版(2019)必修第一册.pptx VIP
- XX医院职能部门监管手术、麻醉授权管理督导、检查、总结、反馈及持续改进记录表.pdf VIP
- 电力调度数据网络接入技术规范及网络拓扑图.doc VIP
- ZZGA高频开关整流器使用说明书.doc
文档评论(0)