大数据检索引擎.pdfVIP

下载本文档

17
0
约3.47千字
约 7页
2021-01-03 发布于江西
举报
版权申诉

大数据检索引擎.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据检索引擎一、大数据检索引擎的背景奥巴马政府投资 2 亿美元启动“大数据研究和发展计划”，重要性堪比当年“信息高速公路”,希望增强收集海量数据、分析萃取信息的能力。大数据已经上升到一场国家战略，欧盟、中国等国家必将跟进，出台相应政策。中国政府已经启动的核高基项目非结构化数据管理系统”是大数据研究和发展计划的前身，必将进一步推进大数据研究和发展。大数据平台将在生物及医疗卫生、电网、地理地质、交通、能源、气象、基础研究、电子商务、社交网络、移动互联网和物联网等领域拥有海量数据的大数据行业应用中，发挥平台性的支撑作用。大数据平台包括大数据采集软件、大数据管理系统、大数据分析系统，构成企业级大数据管理和分析的三套件; 大数据管理系统是非结构化数据管理系统的升级换代产品 , 大数据管理系统的核心是大数据检索引擎, 或者说融合检索引擎技术的大数据管理系统。检索引擎是大数据高效管理和智能分析的基础，同时需要针对大数据特点(海量、数据异构多样性、应用需求多样性)进行设计，开发面向大数据的高效、可靠、智能的检索引擎。二、大数据检索引擎的总体特性及架构图 1. 针对大数据特点(海量、数据多样性、应用需求多样性)进行设计的高效、可靠、智能的检索引擎 2. 分布式并行计算、多副本机制、对等节点机制、没有单点的高可靠体系架构，与Hadoop 精品资料无缝集成 3. 支持结构化、半结构化、非结构化数据的统一管理和搜索 4. 为实时及用户行为数据的高效管理和分析, 提供支撑 5. 支持PB级的海量数据管理 6. 支持海量用户的高并发访问（千万级用户、万级并发） 7. 充分释放现代计算机硬件的潜力（多核、大内存等） 8. 大规模部署的自动化和运行状态监控 9. 创新的柔性多引擎机制，提供开放的二次开发接口三、大数据检索引擎的功能指标精品资料 1. 扁平化设计，弹性扩展：系统采取扁平化设计，节点之间完全对等，都可以对外提供服务。扁平化的架构，使整个系统没有单点故障，任何一个节点的故障都不影响系统对外提供服务；同时扁平化的架构使系统具有良好的扩展性，只需在线增加新的节点就可以提供系统的容量和对外服务能力。 2. 异常感知、自动恢复：大数据管理系统将硬件异常作为常见异常来处理。系统可以自动感知服务器的异常状态，并进行自我修复，不会因为单个节点的异常导致整个系统不可用。 3. 柔性多引擎技术：大数据管理系统使用多引擎机制，定义一个标准的引擎接口。对于不同的应用需求可以使用不同的引擎来对外提供服务，用户甚至可以构建自己的引擎来扩展系统的数据处理能力。支持异构数据：结构化，半结构化，非结构化数据的统一检索。 4. 高效分区索引机制：可根据应用的查询特点，将数据自动分区索引，充分发挥现代PC 多核服务器、大内存的优势，采用并行索引，多路合并的方式，变随机读写为顺序读写，实现高速的索引创建，适应海量数据的集中索引和快速索引的应用需求。同时，分区索引还可以减少检索时的索引匹配范围，缩短检索响应时间。 5. 多副本机制：一个索引可由多个子集组成，分布在不同的节点上，实现分布式检索；索引的各个子集可在不同的节点上存储多个副本，索引子集多副本实现了容灾备份，避单点故障，同时也实现了负载均衡，提高并发检索能力。 6. 混合索引方式：提供按词索引、按字索引、字词混合索引方式，满足不同应用场景对查全和查准的不同需求, 满足100%查全需求的应用场景。 7. 内存表与列存储：支持在内存中建立数据表，适应数据量较少，但查询并发与响应速度要求很高的应用需求。系统支持列存储，实现特定数据列的高效访问，提高特定数据列的分类统计和排序的速度。精品资料 8. 异步检索：支持异步检索模式，适应大并发（高连接数）的应用场景要求，避免了同步检索模式时消耗太多线程资源的问题。 9. 多层次、多粒度的分布式CACHE ：系统既有单节点的检索缓存，又有合并后的整体检索缓存，多层次多粒度的设计，大大提高了缓存的命中率，减轻高并