- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
课件第5章 信息资源的网络管理
XML与HTML的区别 XML是用来存放数据的;XML不是HTML的替代品,XML和HTML是两种不同用途的语言。XML是被设计用来描述数据的,重点是:什么是数据,如何存放数据。HTML是被设计用来显示数据的,重点是:显示数据以及如何显示数据更好。HTML是与显示信息相关的, XML则是与描述信息相关的。 * SGML、XML和HTML的关系 SGML 通用标记语言 HTML 超文本标记语言 XML 可扩展性标记语言 HTML和XML都派生于SGML。 HTML是SGML实际应用。 XML是SGML的一个精简子集。 XML被设计描述数据,HTML被设计用来显示数据。 * 5.4 网络信息资源的检索 主题指南检索 搜索引擎检索 * 1 主题指南 主题指南(Subject directory):是一种可供检索和查询的等级式主题目录,以超文本链接的方式将不同学科、专业、行业和区域的信息按照分类或主题目录的形式组织起来。如SOHU、阿里巴巴网站等。 * 2 搜索引擎 搜索引擎(search engines)是对互联网上的信息资源进行搜集整理,然后专供用户查询的系统。 如百度、Google、Yahoo!等等。一个搜索引擎一般包括信息搜集、信息整理和用户查询三部分。 * 搜索引擎 搜索引擎是一种能够通过internet接受用户的查询指令,并向用户提供符合其查询需求的信息资源网址的系统。它是一些在web中主动搜索信息(网页上的单词和特定的描述内容)并将其自动索引的web网站,其索引内容存储在可供检索的大型数据库中,建立索引和目录服务。一些搜索引擎搜索网页的每一个单词,而另一些搜索引擎则只搜索网页的前二百至五百个单词。当用户输入关键词查询时,该搜索引擎会告诉用户包含该关键词信息的所有网址,并提供通向该网络的链接。搜索引擎既是用于检索的软件又是提供查询、检索的网站。所以,搜索引擎也可称internet上具有检索功能的网页。 * * * 搜索引擎的结构 搜索器(蜘蛛程序) 分析器 索引器 检索器 用户接口 * 搜索器,主要功能是在互联网中漫游,发现和收集信息。它通常是一个遵循一定协议的计算机程序,即蜘蛛程序(spider)。 分析器,即分析程序,功能是理解搜索器所搜索的信息。它通常是一些特殊算法,从spider程序抓回的网页源文件中抽取出索引项。 索引器,将生成从关键词到URL的关系索引表。索引表一般使用某种形式的倒排表,即有索引项查找相应的URL。 检索器,主要功能是根据用户输入的关键词,在索引器形成的倒排表中进行查询,同时完成页面与查询之间的相关度评价,对将要输出的结果进行排序,并提供某种用户相关性反馈机制。 用户接口,时输入用户查询、显示查询结果、提供用户相关性反馈机制。主要目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。 * 搜索引擎的结构 网络蜘蛛 索引库 搜索引擎软件 * 网络蜘蛛 网络蜘蛛(spider)是一个功能很强的程序。它会定期根据预先设定的地址去查看对应的网页,如网页发生变化则重新获取该网页,否则根据该网页中的链接继续进行访问。 网络蜘蛛访问页面的过程是对互联网信息的遍历过程,为了保证网络蜘蛛遍历信息的广度,一般事先设定一些重要的链接。然后对这些链接进行遍历,不断记录,不断遍历,直至访问完所有的链接。 * 索引 网络蜘蛛将遍历得到的页面信息存放在临时数据库中,为了提高检索效率,需要按照一定的规则建立索引。索引一般按照倒排文档的格式存放。 索引项有元数据索引项和内容索引项两种: 元数据索引项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度等等; 内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。 * 搜索引擎软件 该软件用来筛选索引中无数的网页信息,挑选出符合查询要求的网页并将它们进行分级排序,与查询关键词关联越大的排得越靠前,然后将分级排序后的结果显示给查询用户。 * 搜索引擎的主要指标 响应时间:用户提交查询请求与结果返回之间的平均时间间隔。 召回率:一次搜索结果集合中符合用户要求的数目与文档库中所有相关结果总数之比,衡量搜索引擎的查全率。 准确率:一次搜索结果集合中符合用户要求的数目与该次搜索结果总数之比,衡量搜索引擎的查准率。 受欢迎程度:界面友好程度、性能稳定、搜索质量好、知名度高等。 * 按工作语种区分:单语种搜索引擎、多语种搜索引擎。 按内容组织方式区分:分类目录型搜索引擎(网站级)、关键词型搜索引擎(网页级)。 按搜索范围区分:独立搜索引擎、多元搜索引擎。 搜索引擎的类型 * 一般搜索引擎(独立搜索引擎):利用网络蜘蛛对因特网资源进行检索。不同的搜索引擎搜索的内容不尽相同。据
您可能关注的文档
- 课件第10章脉冲中子测井.ppt
- 精品第十三章 生化药物制造工艺 糖类药物.ppt
- 培训螺旋转子流量计在油品贸易中的应用3.doc
- 浅析合并报表案例.ppt
- 浅析概率论(第二版).ppt
- 精品耳聋的防治.ppt
- 精选足球竞赛制度、编排与成绩计算.ppt
- 课件醇类表面活性剂.ppt
- 精品第八章 协整与误差校正模型.ppt
- 课件大学物理下册多普勒效应.ppt
- 零团费现象的法律透视与综合治理路径探究.docx
- 论网络公关不正当竞争行为的监管:问题剖析与优化路径.docx
- 马克思主义政治社会化理论中的“普遍化”问题研究.docx
- 金融危机下太钢文化战略的破局与重塑:实践、成效与前瞻.docx
- 化瘀生新汤灌肠疗法对宫腔术后月经过少的疗效及机制探究.docx
- 解析蓝光对黑曲霉生长发育的调控机制_多维度研究与应用探索.docx
- 盆腔异位肾肾动态显像前后位像GFR测定值差异及临床意义探究.docx
- 基于数值模拟的尿素选择性催化还原系统性能提升与优化策略研究.docx
- 硫对砷胁迫下秋茄幼苗渗透调节与巯基化合物的影响机制探究.docx
- ANA随机变量概率极限性质的深入探究与应用拓展.docx
最近下载
- QP—EN—订单变更控制程序.doc VIP
- 2026届广西南宁二中化学高二上期末监测模拟试题含答案.doc VIP
- (人教A版)选择性必修二高二上学期期末复习检测AB卷(基础卷)(原卷版).docx VIP
- GBT18487.1 送审稿.pdf VIP
- 2025年综合类-炉前工-初级炉前工历年真题摘选带答案(5卷-选择题).docx VIP
- 2026年青海省交通控股集团有限公司招聘笔试备考试题(45人)附答案解析.docx VIP
- 三级体系文件编写工作要求-详解.ppt VIP
- 抽水蓄能电站进出水口水力学数值模拟及模型试验规程.pdf
- GB 50058-2014 爆炸危险环境电力装置设计规范.docx VIP
- 临时占道施工方案及安全措施.docx VIP
原创力文档


文档评论(0)