- 2
- 0
- 约 48页
- 2016-12-28 发布于山西
- 举报
上海第二医科大学 Internet医学信息检索 第四讲 通用搜索引擎、网站目录 目 录 一、搜索引擎概述 二、Internet通用搜索引擎 三、主题网站目录 四、实习题 一、搜索引擎概述 搜索引擎原理 搜索引擎分类 检索模式 搜索引擎评价指标 搜索引擎原理 搜索引擎(Search Engine)是收录与查找网络信息资源的主要工具,其工作原理主要包括以下三个方面: 收集网络信息:利用网络自动搜索软件Spider 或Robot,以一个已知的URL清单为向导,利用网页之间的链接关系逐级爬行,定期扫描与搜索网页信息,同时接受网站的推荐。 建立索引库:由分析索引系统程序对收集的网页进行分析,提取相关网页信息,根据一定的相关度算法进行大量复杂计算,得到每一个关键词的相关度,并以这些相关信息建立网页索引数据库。 用户查询索引库:在用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。 搜索引擎分类 搜索引擎可以从四个方面进行分类: 按索引方式分类:目录式搜索引擎和主题式搜索引擎。 按检索机制分类:独立型搜索引擎与多元型搜索引擎。 按收录范围分类:综合类搜索引擎与专题类搜索引擎。 按支持检索的网页语种分类:单语种与多语种搜索引擎。 检索模式 分类检索与关键词检索 基本检索与高级检索 二次检索:在检索结果内进一步查询相关的信息 定位检索 :根据提问词直接打开最相关的网站 单词检索和词组检索:利用双引号将词组或短语括起来检索 支持布尔逻辑检索、截词检索和大小敏感检索 检索结果扩展检索:在检索结果后附有类似“相关网页”和“类似网页”等,供用户获取与此记录类似的更多检索结果。 搜索引擎评价指标 收录范围:收录网络信息的数量和类型。 查全率:检索出相关资料与系统资料库中相关资料总量的比率。 查准率:检索出的有用资料与检索出资料总量的比率。。 检索速度:从提交检索命令到查出资料结果所需的时间。 无效链接:无法获取检索结果中列出的网页信息。 用户负担:用户在检索过程中付出精力的总和。 索引数据更新时间:我们通过搜索引擎获取的检索结果并不是直接从互联网上实时获取的,而是从搜索引擎的索引库中获取的,因此该索引库的更新频率直接影响到我们所获取信息的新颖程度。 二、Internet通用搜索引擎 通用搜索引擎——Google 通用中文搜索引擎——百度Baidu 通用搜索引擎——NORTHERN LIGHT 通用搜索引擎的优缺点 元搜索引擎简述 通用搜索引擎Google概况 Google搜索引擎是美国斯坦福大学的两位博士生在1998年创建的,是目前世界上最大的搜索引擎。 Google的结果排序方法: 利用标准文本匹配算法:检索词出现的频数决定排序顺序 采用PageRank专利技术决定页面的重要性 Google具有二进制文件搜索功能:能查找PDF、DOC和SWF等格式的文件。 Google是一个多语种的搜索引擎:中文网页优化、简繁体自动转换,非英文网页翻译功能。 Google具有提问词拼写校验功能:中文Google还可以通过拼音进行检索,并具有纠错功能。 Google的基本检索语法 检索词不区分大小写。 自动使用“and”进行查询 不需要在关键词之间加上“and”或“+” 在关键词中间留空格就行 忽略词 忽略最常用的词和字符,如:http”, “.com”和“的”等 使用英文双引号可将这些忽略词强加于搜索项 词干法 同时搜索关键词和与关键词相近的字词 词干法对英文搜索尤其有效 拼音汉字转换 Google 查询结果的组成部份 统计行 查询结果及搜索时间的统计数字 网页标题 标题下文本 网址 文本大小 网页文本部份的大小,未被 Google 编入索引的网站不会有此项资料 网页快照 可以查看 Google 已编入索引的网页的内容 Google检索功能 基本检索功能:在检索框中输入检索表达式后按“搜索”按钮或回车键。 定位检索功能:输入检索词后按“手气不错”按钮。 二次检索功能:在检索结果的范围中进一步进行查询。 高级检索功能:点击“高级搜索”超链就进入网站、网页高级检索界面。高级检索界面中限制检索的条件: 将搜索范围限制在某个特定的网站中 排除某个特定网站的网页 将搜索限制于某种指定的语言 查找链接到某个指定网页的所有网页 查找与指定网页相关的网页 缩小搜索范围 的窍门 减除无关资料 如果要避免搜索某个词语,可以在这个词前面加上一个英文减号 在减号之前必须留一空格 英文短语搜索 英文双引号中的词语在查询到的文档中将作为一个整体出现 “-”、“\”、“.”、“=”和“...”等标点符号识别为短语连接符 指定网域 要在某个特定的域或站点中进行搜索,可以
原创力文档

文档评论(0)