第6章搜索引擎与开放获取(免费阅读).pptVIP

第6章搜索引擎与开放获取(免费阅读).ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
北京交通大学出版社《信息检索教程》(Information Retrieval Textbook)系列课件 1 互联网搜索引擎 搜索引擎的类型(1) 搜索引擎的类型(2) 搜索引擎的工作原理 搜索器也称为蜘蛛系统(Spider)或爬虫系统(Crawler),其功能是遵循一定的协议,在互联网中及时搜索和发现新的网页信息,并更新索引数据库,避免死链接。 分析器借助词频统计、词语位置认定和一些特殊算法,对搜索器抓回的网页进行标引,并对其中的网页超链接进行关联。 索引器根据分析器生成的关键词,建立从关键词到网页URL的关系索引倒排文档,即建立索引数据库。 检索器根据用户输入的提问词,在索引数据库中进行匹配运算,然后将查询结果按相关程度排序。 用户接口接收并解释用户输入的检索提问,最后将检索器查询的结果输出。 搜索引擎的检索功能 常用搜索引擎 —— 百度 基本检索 高级搜索语法 调整搜索结果 百度快照 常用搜索引擎 —— Google 检索界面 高级搜索语法 “手气不错” 调整搜索结果 网页快照 Google学术搜索 提供众多学科和资料来源,包括: 学术著作出版商(如“万方”、CNKI、维普中的部分内容) 大学等学术团体的作品 公开的学术刊物 专业类报纸的电子版 其他网络上可以搜索到的学术文章 学术搜索结果 结果排序综合考虑每篇文章的内容、作者、发表的刊物以及被其他学术文章引用的次数等要素,相关度越高的文章在结果列表中的位置越靠前,如果点击结果列表上方的“最新文章”则按文章的发表时间排序 每条记录中显示的项目充分考虑到使用者的需要,包括:标题、被引用次数、相关文章、图书馆搜索、网页搜索等 其它搜索引擎 —— AltaVista 检索功能 支持自然语言搜索,检索提问可以是单词、词组或短语以及完整的问题,词组或短语应置于双引号中 检索词前面加“+”表示该词一定要出现在搜索结果中,加“-”则表示该词一定不要出现在搜索结果中 检索时区分大小写:当以大写字母查询时默认为精确匹配,而输入小写字母则同时查询大、小写 采用“*”作为通配符,1个“*”号最多可以代替5个小写字母 支持布尔逻辑算符,并以“NEAR”表示靠近关系,即两个关键词间的单词数少于10个 其它搜索引擎 —— Dogpile 检索功能 每一条搜索结果都综合自数个搜索引擎,收到查询提问首先并行地调用Google、Yahoo、MSN、Ask Jeeves等4个源搜索引擎,如果没有得到10个以上的结果,再调用另外的搜索引擎 采用先进的自动聚类技术,对来自源搜索引擎的结果进行相关性比较,聚合生成并提供最符合查询提问的无重复的结果列表 支持“AND”、“OR”、“NOT”等逻辑运算和优先运算符“()”、精确搜索符“”、通配符“*”、临近搜索符“NEAR”等 支持“filetype:”、“intitle:”、“inurl:”、“link:”等搜索语法,并能将其转化为符合源搜索引擎的相应搜索语法 通过“Preferences”可以进行个人搜索习惯设置 2 学科信息门户 学科信息门户的特征 以联机方式提供互联网上许多站点和文献的链接服务 智能化的资源选择,即根据既定的质量和范围标准来选择资源 智能化的内容描述,包括简短的注释和评论,可以采用给定的关键词或受控术语 智能化的构建浏览和分类体系结构 至少部分地采用人工方法为每个资源创建书目元数据 学科信息门户的服务 围绕某个学科主题提供网络信息导航,是网络资源发现的工具,其本身并不包含文献的全文和被链接网站的内容 被引导的资源都按照一定的遴选标准,由学科专家进行“质量控制”,因此都是高质量的 信息资源的描述由学科专家或编目人员完成,而不是像搜索引擎那样由计算机自动抽取,因而描述更加准确、清晰,便于利用 对于被引导的资源采用权威分类体系加以组织,资源分类的结果具有通用性 重要学科门户网站(1) 国家科学数字图书馆学科门户 ChIN 静态网页版提供主要的元数据及其自动检索功能,包括资源所属的类型分类和相关链接,并可同时浏览某个分类下的全部资源,不需翻页 动态网页版提供完整的元数据及其自动检索功能,包括该资源所属的类型分类和学科领域分类、主题/关键词以及相关链接,既可按照资源类型浏览,也可按照学科分类浏览,按每页15条分页显示 快速检索 高级检索 系统提供5个检索字段,包括资源的名称(标题)、关键词(由ChIN人工加注)、网址URL、资源类型分类、学科分类,各个检索条件之间可选择匹配方式(包含、不包含、等于、不等于)和逻辑关系(并且、或者)。 可以将关键词检索和分类检索结合进行,点击分类树选择分类,所选择的分类将在当前输入框中自动显示。 重要学科门户网站(2) NSTL科技热点门户 检索方式 重要学科门户网站(3)

文档评论(0)

kaiss + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档