- 1、本文档共33页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
20150429网络信息检索3_搜索引擎概述.doc
幻灯片1
网络信息搜索引擎 概 述
Network Information Search Engines
搜索引擎的含义
搜索引擎 (Searching Engine)是指一种能够自动对网络资源建立索引或进行主题分类,并通过查询语法为用户返回相匹配资源的系统。
搜索引擎使用某些软件程序(如Robots、 Spiders或 Crawlers)把 Internet上的所有信息自动归类或者人为地把某些数据归入某类别,形成一个可供查询的大型数据库。
幻灯片4
搜索引擎的分类
按搜索机制分类
按搜索内容分类
按信息采集方法分类
幻灯片5
按搜索机制分类
目录型搜索引擎
把搜集到的信息资源按照一定的主题分门别类,建立多级目录。大目录下面包含子目录,子目录下面又包含子目录……如此下去,建立多层具有包含关系的目录。用户查找信息时,采取逐层浏览打开目录,逐步细化,就可查到所需信息。
关键词型搜索引擎
关键词型搜索引擎是通过用户输入关键词来查找所需的信息资源,这种方式方便直接,而且可以使用逻辑关系组合关键词,可以限制查找对象的地区、网络范围、数据类型、时间等,可对满足选定条件的资源准确定位。
混合型搜索引擎
兼有关键词型和目录型两种查找方式,既可直接输入关键词查找特定信息,又可浏览目录了解某领域范围的资源。目前大多数搜索引擎站点都同时提供关键词检索和目录浏览检索。
幻灯片6
幻灯片9
2. 按搜索内容分类
综合型搜索引擎
专业型搜索引擎
特殊型搜索引擎
幻灯片10
(1)综合型搜索引擎
综合型搜索引擎对搜集的信息资源不限制主题范围和数据类型
利用它可以查找到几乎任何方面的信息。
幻灯片11
(2)专业型搜索引擎
专业型搜索引擎只搜集某一行业或专业范围内的信息资源,因此,它在提供专业信息资源方面要远远优于综合型搜索引擎。如IT信息、财经信息、硬件报价、人才求职与招聘信息。
(3)特殊型搜索引擎
特殊型搜索引擎是专门搜集特定类型格式的信息,例如专门搜集电话、人名、地址、图像、股市信息等
按信息采集方法分类
基于蜘蛛程序的机器人搜索引擎
这种搜索引擎由一个称为蜘蛛(Spider)的机器人程序自动访问网站,提取站点上的网页,并根据网页中的链接进一步提取其他网页,或转移到其他站点上。由索引器为搜集到的信息建立索引,并根据用户的查询输入检索索引库,然后将查询结果返回给用户。
该类搜索引擎的优点是信息量大、更新及时、不需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。
(2)目录式搜索引擎
以人工方式或半自动方式搜集信息,由编辑人员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。
信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。
目录的用户界面基本上都是分级结构,首页提供了最基本的几个大类的入口,用户可以一级一级地向下访问,直至找到自己感兴趣的类别.用户也可以利用目录提供的搜索功能直接查找一个关键词.
由于目录只在保存的对站点的描述中进行搜索,因此站点本身的动态变化不会反映到搜索结果中来,这也是目录与基于机器人的搜索引擎之间的一大区别。
(3)元搜索引擎
元搜索引擎的特点是本身并没有存放网页信息的数据库,当用户查询一个关键词时,它把用户的查询请求转换成其他搜索引擎能够接受的命令格式,并访问数个搜索引擎来查询这个关键词,并把这些搜索引擎返回的结果经过处理后再返回给用户。
对于返回的结果系统会进行重复排除、重新排序等处理。服务方式为面向网页的全文检索。
这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是用户需要做更多的筛选。
全文搜索引擎
全文搜索引擎通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户. 是通常概念上的搜索引擎。
从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),并自建网页数据库,搜索结果直接从自身的数据库中调用;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。
目录索引
目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。
用户完全可以不用进行关键词查询,仅靠分类目录也可找到需要的信息。
目录索引中最具代表性的莫过于的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、Look Smart等。国内的搜狐、新浪、网易搜索也都属于这一类。
您可能关注的文档
- 2014年中国老人手机潮流及2015趋势预测.doc
- 2014年中学生作文竞赛题目.doc
- 2014年北京师范大学日语语言文学考研真题.pdf
- 2014年县妇联巾帼文明岗自查报告.doc
- 2014年各考点校考时间表2.xls
- 2014年山东烟台市莱山区应届高校毕业生教师招聘公告.doc
- 2014年度感动中国十大人物事迹及颁奖词.doc
- 2014年护士在职培训计划(4稿).pdf
- 2014年教研项目立项指南.doc
- 2014年昆明理工大学考试大纲836西方经济学.doc
- 201505质控车间人员定编定岗安排等通知.doc
- 2015一本补录理科类缺档专业(整理) (.xls
- 2015全国水利安全生产知识网络竞赛4.doc
- 2015国家公务员考试行测:文字资料.doc
- 2015培训人数.xls
- 2015届《创新设计》高考英语(北师大版)一轮活页训练(提升版):2.5 Unit 5 Rhythm.doc
- 2015届《创新设计》高考英语(北师大版)一轮活页训练(提升版):5.13 Unit 13 People.doc
- 2015届《创新设计》高考英语(北师大版)一轮活页训练(提升版):5.14 Unit 14 Careers.doc
- 2015届吉林省东北师大附中高三上学期第二次摸底考试.pdf
- 2015届安徽省高考作文审题.doc
最近下载
- 深入贯彻2025年中央八项规定精神学习教育测试试题【含答案】.docx VIP
- 《财务会计学模拟实验教程》账薄答案汇总 1总分类账 --5多栏式明细账.docx VIP
- 2025年甘肃亚盛实业股份有限公司校园招聘模拟试题附带答案详解及参考答案.docx VIP
- 神经干细胞与神经系统疾病.ppt
- GCP质量控制培训课件.pptx VIP
- 锌合金转轴行业发展基本情况.docx VIP
- 家长进课堂—小学生建筑知识课件002230.pptx VIP
- 2025年深入贯彻中央八项规定精神学习教育知识竞赛试题及答案.docx VIP
- Power Up1精品教学课件U4 story.pptx VIP
- 2021年工会经审知识竞赛培训试题及答案.pdf VIP
文档评论(0)