- 1、本文档共49页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
公选课第三章——搜索引擎及其使用
Event Name Here BEA Confidential 搜索引擎及其使用 中南民族大学图书馆信息数字化部 董 坤 2012.11 内 容 概 要 1.1、搜索引擎简史 1990年 搜索引擎的始祖-Archie 1993年 第一个网络爬虫-Wide Web Wander 1994年 Yahoo 1994年 第一个抓取网页全文的WebCrawler 1994年 现代主流搜索引擎之父 Lycos 1998年 搜索引擎的巨擘 Google 1.2搜索引擎的分类 2.1 搜索引擎的基本结构 2.2 网络爬虫 网络爬虫,也称为蜘蛛程序(Spider),爬虫的作用是为搜索引擎抓取大量的数据,其抓取的对象一般就是整个互联网上的网页。 爬虫程序的抓取方法是顺着网页的链接关系进行爬行的。 爬虫的运行过程 2.3 索引系统 索引系统是将普通文档转化为倒排表,并存储成倒排文件的过程。 普通文档集合 Doc-Term1,Term2,Term3,… 倒排档 Term1-DOC,Term2-DOC 2.4 排序 排序是针对搜索结果的排列顺序。 Google的PageRank算法 如果一个网页被别的链接的次数多,则证明网页权重高。相反,如果一个网页链接别的网页次数低则次网页权重低。 排序不简单的是网页的权重比,它是一个综合各方面因素的算式。 3 搜索策略 4.Google简介 由两名斯坦福大学的理学博士生拉里.佩奇(Larry Page)和谢尔盖.布林(Sergey Brin)开发。目前,Google是全球最常用的搜索引擎。 除了搜索业务,google提供其他的实用的工具和服务。 4.1 Google强大的功能及特点 检索网页数量达到24亿,排名第一 覆盖250个国家,占领全球70%以上的搜索市场 在中国比例达到57.5%,高端用户占46.5% 速度极快,据说具有15000多台服务器,200多条T3级宽带 专利网页级别技术PageRank提供准确度极高的搜索结果 网页快照 智能化的“手气不错” 网页翻译 简繁转换 搜索结果过滤 … 4.2 Google的主要功能 搜索功能 网页、图书、视频、地图、博客、学术、购物搜索等。 软件工具 Chrome浏览器、工具栏、手机地图、google文档、google日历、 google talk、Picasa、Rss阅读器 应用服务 Gmail、Google翻译、Blogger、iGoogle、Google协作平台、Google代码 4.3 Google之基本搜索语法 4.3.1 布尔逻辑搜索-更多关键字 布尔逻辑搜索就是指在搜索框中输入多个关键字来搜索,这些关键字之间用逻辑符号来表明其逻辑关系。 + 逻辑“与”、 “AND” | 逻辑“或” “OR” — 逻辑“非”、 “NOT” 4.3.2 专用词组检索 在专用词组上加双引号,可将关键词限定为一个词组概念,使查询结果更为准确。 4.4 Google之高级搜索语法 4.4.1 文件格式选择 Google不仅能搜索一般的文字页面,还能对某些二进制文档进行检索。如XLS、PPT、DOC、PDF、SWF等。 格式如 “信息检索 filetype:pdf”。 4.4.2 网站链接地址检索 在互联网上每一个网页都有一个统一格式的地址-统一资源定位符(Uniform Resource Locator,URL),作为网页的地址。作为网页定位符的字符有一部分是对网页内容进行概括和资源描述。 inurl:mp3 沧海一声笑 Allinurl:mp3 沧海一声笑 4.4.3 网页标题检索 网页的标题一般都是网页内容的高度概括,在网页标题内索引信息,准确程度自然很高。 intitle:中南民族大学 研究生 Allintitle:中南民族大学 研究生 4.4.4 网页内容检索 只在网页的内容之中查找所需要的关键字,作为一种在标题、URL和链接之外地方查找字符串的简略形式,在它之后的每个关键字都作为查询语句的一部分。 Intext:中南民族大学 图书馆 allintext:中南民族大学 图书馆 4.4.5 站内检索 只在某个特定网站站内进行检索 格式 “开放时间 site:” 4.4.6 关联链接检索 搜索所有链接到某个URL地址的网页 格式link: 4.4.7 相关网站的检索 给出和你的站点高度
您可能关注的文档
最近下载
- 卫健系统党课讲稿:掌握科学方法提升党风廉政建设质效.docx VIP
- 酒业公司业务员培训方案.ppt
- 第四章python基础教学设计-高中信息技术必修1数据与计算课件教学设计.pdf VIP
- 《人类面临的主要环境问题》精品课件.ppt VIP
- GB_T8110-2020熔化极气体保护电弧焊用非合金钢及细晶粒钢实心焊丝.pdf
- 怎样培养一年级学生的数学审题能力PPT22页.ppt
- 党课讲稿:夯实基础 把握重点 切实提升基层党组织建设质效.docx VIP
- 2025中国海洋石油集团有限公司校园招聘笔试参考题库附带答案详解.doc
- 《非煤岩岩爆倾向性评价规范-第2部分:数值模拟方法与材料模型参数标定》.pdf VIP
- 100以内连加连减打印版-100题.doc
文档评论(0)