14网络资源检索与利用.pdfVIP

  • 5
  • 0
  • 约1.64万字
  • 约 59页
  • 2017-08-16 发布于江西
  • 举报
14网络资源检索与利用.pdf

第四章网络资源检索及利用 第四章网络资源检索及利用 2011.11 1 主要内容: 主要内容: 4.1 认识搜索引擎 4.1.1 搜索引擎的概念及工作原理 4.1.2 搜索引擎的类型及特点 4.1.3 搜索引擎的发展 4.1.4 搜索引擎的使用(以google为例) 4.1.5 科技搜索引擎举例:google scholar、scirus 4.2 网络信息的识别与评价 4.2.1 网络信息的特点 4.2.2 网络信息的识别 4.2.3 网络信息的评价 4.3 常用网络免费学术资源介绍 2011.11 2 4.1 认识搜索引擎 4.1 认识搜索引擎 4.1.1搜索引擎的概念及工作原理 一.概念: (Search Engine ) ——万维网环境中的信息检索系统。 ——指自动从因特网搜集信息,经过一定整理以后,提供 给用户进行查询的系统。(来自维基百科) 二.组成:WWW服务器;自动搜索程序(如spider、 crawler、robot,抓取网页信息);索引数据库;检索程 序(用来处理用户的检索请求) 2011.11 3 三. 工作原理 简单地说主要包括以下几个步骤: 1.网页信息搜索:搜索程序自动到www上抓取网页 2. 网页信息处理:主要是针对网页上的信息(主要是文字)创 建索引,便于检索 3.接受用户查询请求:在索引数据库中进行检索 4.输出检索结果:检索结果按一定原则排序后显示 2011.11 4 搜索引擎工作原理图 2011.11 5 四.输出结果排序原则 位置词频法:检索词出现的位置和词频 链接:网页被其他网页或网站链接的次数 付费:根据网页拥有者付费的多少来决定其网页出现的 位置 相关链接 竞价排名:企业可向搜索引擎公司购买该项 服务,通过注册一定数量的关键词,使其网 页推广信息率先出现在相应的搜索结果中 2011.11 6 小练习: 了解并对比两种最早的搜索引擎排序算法: 1.百度创始人、董事长兼首席执行官李彦宏1997年2月在美国 申请了一份专利——“超链分析技术”, 请感兴趣的同学检索 并下载该项专利全文 2.Google创始人布林和佩奇于2001年9月通过了pagerank的 专利申请(据说1998年进行申请),请感兴趣的同学检索 并下载该项专利全文 3.请大家选取相同的检索词(自定)在两个搜索引擎中分别检 索,对比检索结果 2011.11 7 4.1.2搜索引擎的类型及特点 形形色色的搜索引擎 2011.11 8 根据组织信息的方式 类型 特点 典型 目录式分类搜 将信息进行归类,适合那些希望了解某 Yahoo 、Sohu、 索引擎 一方面信息但又没有明确目的的用

文档评论(0)

1亿VIP精品文档

相关文档