大数据检索引擎.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据检索引擎 一、大数据检索引擎的背景 奥巴马政府投资 2 亿美元启动“大数据研究和发展计划”,重要性堪比当年“信息高速公 路”,希望增强收集海量数据、分析萃取信息的能力。大数据已经上升到一场国家战略,欧盟、 中国等国家必将跟进,出台相应政策。中国政府已经启动的核高基项目非结构化数据管理 系统”是大数据研究和发展计划的前身,必将进一步推进大数据研究和发展。大数据平台将 在生物及医疗卫生、电网、地理地质、交通、能源、气象、基础研究、电子商务、社交网络、 移动互联网和物联网等领域拥有海量数据的大数据行业应用中,发挥平台性的支撑作用。 大数据平台包括大数据采集软件、大数据管理系统、大数据分析系统,构成企业级大 数据管理和分析的三套件; 大数据管理系统是非结构化数据管理系统的升级换代产品 , 大 数据管理系统的核心是大数据检索引擎, 或者说融合检索引擎技术的大数据管理系统。检索 引擎是大数据高效管理和智能分析的基础,同时需要针对大数据特点(海量、数据异构多样 性、应用需求多样性)进行设计,开发面向大数据的高效、可靠、智能的检索引擎。 二、大数据检索引擎的总体特性及架构图 1. 针对大数据特点(海量、数据多样性、应用需求多样性)进行设计的高效、可靠、智能的 检索引擎 2. 分布式并行计算、多副本机制、对等节点机制、没有单点的高可靠体系架构,与Hadoop 精品资料 无缝集成 3. 支持结构化、半结构化、非结构化数据的统一管理和搜索 4. 为实时及用户行为数据的高效管理和分析, 提供支撑 5. 支持PB级的海量数据管理 6. 支持海量用户的高并发访问(千万级用户、万级并发) 7. 充分释放现代计算机硬件的潜力(多核、大内存等) 8. 大规模部署的自动化和运行状态监控 9. 创新的柔性多引擎机制,提供开放的二次开发接口 三、大数据检索引擎的功能指标 精品资料 1. 扁平化设计,弹性扩展:系统采取扁平化设计,节点之间完全对等,都可以对外提供服 务。扁平化的架构,使整个系统没有单点故障,任何一个节点的故障都不影响系统对外 提供服务;同时扁平化的架构使系统具有良好的扩展性,只需在线增加新的节点就可以 提供系统的容量和对外服务能力。 2. 异常感知、自动恢复:大数据管理系统将硬件异常作为常见异常来处理。系统可以自动 感知服务器的异常状态,并进行自我修复,不会因为单个节点的异常导致整个系统不可 用。 3. 柔性多引擎技术:大数据管理系统使用多引擎机制,定义一个标准的引擎接口。对于不 同的应用需求可以使用不同的引擎来对外提供服务,用户甚至可以构建自己的引擎来扩 展系统的数据处理能力。支持异构数据:结构化,半结构化,非结构化数据的统一检索。 4. 高效分区索引机制:可根据应用的查询特点,将数据自动分区索引,充分发挥现代PC 多核服务器、大内存的优势,采用并行索引,多路合并的方式,变随机读写为顺序读写, 实现高速的索引创建,适应海量数据的集中索引和快速索引的应用需求。同时,分区索 引还可以减少检索时的索引匹配范围,缩短检索响应时间。 5. 多副本机制:一个索引可由多个子集组成,分布在不同的节点上,实现分布式检索;索 引的各个子集可在不同的节点上存储多个副本,索引子集多副本实现了容灾备份,避 单点故障,同时也实现了负载均衡,提高并发检索能力。 6. 混合索引方式:提供按词索引、按字索引、字词混合索引方式,满足不同应用场景对查 全和查准的不同需求, 满足100%查全需求的应用场景。 7. 内存表与列存储:支持在内存中建立数据表,适应数据量较少,但查询并发与响应速度 要求很高的应用需求。系统支持列存储,实现特定数据列的高效访问,提高特定数据列 的分类统计和排序的速度。 精品资料 8. 异步检索:支持异步检索模式,适应大并发(高连接数)的应用场景要求,避免了同步 检索模式时消耗太多线程资源的问题。 9. 多层次、多粒度的分布式CACHE :系统既有单节点的检索缓存,又有合并后的整体检 索缓存,多层次多粒度的设计,大大提高了缓存的命中率,减轻高并

文档评论(0)

135****4686 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档