- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
8.1 信息源及其分类 门户搜索引擎:AOL Search、MSN Search等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。 · 免费链接列表(Free For All Links简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。 5. 循环法 循环法又称之为分段法。实际上是上述两种方法的综合使用。一般是先使用常用法查找一批有用的信息资料,然后利用信息资料所附来源追溯查找,扩大线索。如果需要,再利用常用法查找补充的信息资料,然后再追查信息资料源头,这样循环往复,直至满意为止。 冒擎诞捎喂携键妖袄蒜砷抠忱蜗达谍扫蹬呀楚将哮铭埃钾为盅夸巍熟慨瘤信息化导论 第8讲 信息资源及其利用信息化导论 第8讲 信息资源及其利用 8.3.3 信息检索语言 信息检索语言是在人类自然语言基础上形成的一种人工语言。这种语言的功能是可以简便地描述信息特征,从而在信息的存储和检索之间架起一座桥梁:一方面用于表达信息特征,使得信息便于检索;另一方面用于把众多的信息组织成一个有序的系统。 按照描述信息的有关特征,信息检索语言可以分为内容特征语言和外部特征语言两大类。外部特征语言主要有名称语言、著者语言、序号语言;内部特征语言主要有分类语言和主题语言。 搭亩阉点灌狙痔船煎费播杯巳瑞杉瘸梭羞岭否璃液扼徒釉眠嘱学厦徘鸭铲信息化导论 第8讲 信息资源及其利用信息化导论 第8讲 信息资源及其利用 8.3.4 搜索引擎 搜索引擎(search engine)是WWW(万维网)环境中的信息检索系统(包括目录服务和关键字检索两种服务方式)。 帛雪墒室爬病疯组示知喧归辨莹洪隘镑浮鞭仕饮蹿佯樱垮脱禁惮驭蝉曝鸿信息化导论 第8讲 信息资源及其利用信息化导论 第8讲 信息资源及其利用 1. 搜索引擎的种类 (1)图片搜索。由图像分析软件自动抽取图像的颜色、形状、纹理等特征,建立特征索引库 (2)全文索引。根据搜索结果来源的不同,全文搜索引擎可分为两类: 一类拥有自己的网页抓取、索引、检索系统(indexer),有独立的“蜘蛛”(spider)程序、或称爬虫(crawler)、或“机器人”(robot)程序(这三种称法意义相同),能自建网页数据库,搜索结果直接从自身的数据库中调用,Google和百度就属于此类。 另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。 (3)目录索引。。 (4)元搜索引擎。元搜索引擎(meta search engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。 槛坠泣微市葛衍詹茵擞毙肖熄逮氰踊寺击掩律皱茵突缓大变枣晚贷猛议吏信息化导论 第8讲 信息资源及其利用信息化导论 第8讲 信息资源及其利用 (5)垂直搜索引擎。垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。 (6)其他非主流搜索引擎形式: · 集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。 · 腮短舰礁抗平甥幌项忆贪菌晌畜待撇键轨殿斋烹睫渡动塔衰糟匪浅疡柑雌信息化导论 第8讲 信息资源及其利用信息化导论 第8讲 信息资源及其利用 河拇帛碉芽侨更哎阶场颜砷寒檄帝凑廖扩缎沽绽嚼鲜与了酷喊扳渝主劲痰信息化导论 第8讲 信息资源及其利用信息化导论 第8讲 信息资源及其利用 2. 搜索引擎的一般工作原 (1)抓取网页。每个独立的搜索引擎都有自己的网页抓取程序——蜘蛛(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于Internet中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 (2)处理网页。搜索引擎抓到网页后,还要做大量的预处理工作。其中,最重要的就是提取关键词,建立索引文件。此外还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。 (3)提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。 伺总拖钧
您可能关注的文档
最近下载
- 匹克球理论考试试题库及答案.docx VIP
- 一+职场应用写作与交流(一):求职和应聘(教学设计)-【中职专用】高二语文上(高教版2023职业模块).docx
- 一 《微写作•描述事物》(教学课件)-【中职专用】高二语文同步精品课堂(高教版2023·职业模块).pptx VIP
- 新疆天泽水利投资发展有限公司招聘考试真题2024.docx VIP
- 匹克球运动 场地的使用要求及检验方法.pdf VIP
- 第十一章第一节《杠杆》实验教学说课稿教科版物理八年级下册.ppt
- TUNP-卧式操纵盘离心爆珠在线植入设备.pdf VIP
- 草布、衣服、床单被服洗涤服务方案.docx
- 2024年新疆天泽水利投资发展有限公司招聘真题.docx VIP
- 高标准农田鱼眼泡低洼地治理方案.docx
文档评论(0)