网站大量收购独家精品文档,联系QQ:2885784924

第十章数据存储及检索技术资料.ppt

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三节 搜素引擎 索引建立:倒排文件模型 搜索引擎体系结构 信息采集 索引技术 搜索服务 倒排文件(inverted file),是指一个词汇集合W和一个文档集合D之间对应关系的数据结构。 建立倒排文件索引是建立索引数据库的核心工作。 第三节 搜素引擎 体系结构:搜索服务 搜索引擎体系结构 信息采集 索引技术 搜索服务 搜索服务是Web搜索引擎工作流程的最后一步,根据用户提交的查询关键字展开搜索,将匹配结果返回给用户。 搜索服务的好坏直接影响Web搜索引擎的用户满意程度。 接受用户的输入,提交用户搜索请求。 根据搜索结果列表合理的展示给用户。 在保护隐私的前提下,记录用户使用行为的详细信息,以便提高下次服务的满意度。 体系结构:结果显示 第三节 搜素引擎 体系结构:网页快照 Web上的数据每时每刻都在变化着,所以随时存在着检索到的页面信息已经不存在的可能。 Web搜索引擎为了提高服务质量,需要对搜索到的页面信息进行快照,以便在原来页面信息失效的情况下,保证用户能够通过快照功能查看页面。 搜索引擎体系结构 信息采集 索引技术 搜索服务 第三节 搜素引擎 二、物联网搜索引擎 物联网时代搜索引擎的新思考 从智能物体角度思考搜索引擎与物体之间的关系,主动识别物体并提取有用信息。 从用户角度上的多模态信息利用,使查询结果更精确,更智能,更定制化。 本章小结 内容回顾 本章介绍了关系数据库的基本概念和关系代数的基本运算,并讨论了物联网中数据管理的特点;并重点介绍了三种基本的网络存储体系结构;最后讨论了搜索引擎的体系结构(信息采集,索引技术,搜索服务),并提出了物联网背景下搜索引擎的新思考。 重点掌握 重点掌握三种基本的网络存储体系结构(DAS,NAS,SAN)的基本概念以及各自的优缺点。 掌握Web搜索引擎的三大模块(网络爬虫模块,索引模块,搜索模块)的作用。 宿命论是那些缺乏意 志力的弱者的借口。 -- 罗曼·罗兰 Thank you 人有了知识,就会具备各种分析能力, 明辨是非的能力。 所以我们要勤恳读书,广泛阅读, 古人说“书中自有黄金屋。 ”通过阅读科技书籍,我们能丰富知识, 培养逻辑思维能力; 通过阅读文学作品,我们能提高文学鉴赏水平, 培养文学情趣; 通过阅读报刊,我们能增长见识,扩大自己的知识面。 有许多书籍还能培养我们的道德情操, 给我们巨大的精神力量, 鼓舞我们前进。 * * * * * * * * * 第十章 数据存储及检索技术 3G及物联网通信技术 第一节 数据库管理系统 第二节 海量信息存储 第三节 搜素引擎 本章内容 第一节 数据库管理系统 一、数据库系统的起源与发展 数据库是存储在一起的相关数据的集合 这些数据是结构化的,无害的或不必要的冗余,并为多种应用服务 数据库的存储独立于使用它的程序 对数据库插入新数据,修改和检索原有数据均能按一种公用的和可控制的方式进行 数据库的应用: 个人电脑:快速查找文件 公司:财务管理软件 互联网:论坛数据存储 物联网:海量数据管理 早期的数据库系统:导航式数据库 网状模型 由图灵奖得主Charles Bachman提出 第一个数据库系统:IDS 层次模型 典型代表:IBM的IMS系统 缺点: 数据的存储结构依赖于数据的类型 数据通过指针相互串联起来,为了访问到想要的内容,可能需要遍历整个数据库 查找操作代价大 第一节 数据库管理系统 关系数据库(RDBMS) 理论基石:Edgar Codd于1970年发表的论文《A Relational Model of Data for Large Shared Data Banks》 重要思想:逻辑组成与存储结构相分离 早期著名的关系数据库系统 System R(1970年,IBM公司) Ingres(1973年,加州大学伯克利分校) 当前主流的关系数据库系统 第一节 数据库管理系统 数据库系统的新发展 关系数据库系统的缺点 缺乏对真实世界实体的有效表达 缺乏对复杂查询的有效处理 缺乏对WEB应用的有效支持 XML数据库(德国Software AG公司的Tamino等): 针对XML数据 时空数据库(甲骨文公司的Oracle 8i Spatial): 针对地理信息系统 NoSQL数据库(Apache基金会的Cassandra): 针对Web数据 第一节 数据库管理系统 关系数据库的架构图 同早期导航式数据库的架构相比,关系数据库的优势。 高度的数据独立性 开放的数据语意、数据一致性、数据冗余性 灵活的自定义数据操作语言 第一节 数据库管理系统 二、关系数据库 关系数据库的架构图(续) 查询过程三个步骤 应用程序将查询语句发送给数据库

文档评论(0)

三哥 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档