10亿-1000亿条日志数据等短数据的检索引擎方案.docVIP

10亿-1000亿条日志数据等短数据的检索引擎方案.doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
10亿-1000亿条日志数据等短数据的检索引擎方案

目录 第1章 功能需求 1 第2章 性能需求 2 第3章 技术方案 3 3.1 软件配置 3 3.2 硬件配置 4 附录:TRS海贝大数据管理系统(Hybase) 5 功能需求 针对10亿-1000亿条短数据(logs数据、书目数据、短信数据、微博数据、公安日志数据等), 检索引擎能够实现结构化数据和非结构化数据的统一检索, 即字段按需建立B+树索引或全文索引, 实现字段之间的组合检索。此外,检索引擎具备以下特点: 扁平化设计,弹性扩展:系统采取扁平化设计,节点之间完全对等,都可以对外提供服务。扁平化的架构,使整个系统没有单点故障,任何一个节点的故障都不影响系统对外提供服务;同时扁平化的架构使系统具有良好的扩展性,只需在线增加新的节点就可以提供系统的容量和对外服务能力。 异常感知、自动恢复:大数据管理系统将硬件异常作为常见异常来处理。系统可以自动感知服务器的异常状态,并进行自我修复,不会因为单个节点的异常导致整个系统不可用。 柔性多引擎技术:大数据管理系统使用多引擎机制,定义一个标准的引擎接口。对于不同的应用需求可以使用不同的引擎来对外提供服务,用户甚至可以构建自己的引擎来扩展系统的数据处理能力。支持异构数据:结构化,半结构化,非结构化数据的统一检索。 高效分区索引机制:可根据应用的查询特点,将数据自动分区索引,充分发挥现代PC多核服务器、大内存的优势,采用并行索引,多路合并的方式,变随机读写为顺序读写,实现高速的索引创建,适应海量数据的集中索引和快速索引的应用需求。同时,分区索引还可以减少检索时的索引匹配范围,缩短检索响应时间。 多副本机制:一个索引可由多个子集组成,分布在不同的节点上,实现分布式检索;索引的各个子集可在不同的节点上存储多个副本,索引子集多副本实现了容灾备份,避免单点故障,同时也实现了负载均衡,提高并发检索能力。 混合索引方式:提供按词索引、按字索引、字词混合索引方式,满足不同应用场景对查全和查准的不同需求。 内存表与列存储:支持在内存中建立数据表,适应数据量较少,但查询并发与响应速度要求很高的应用需求。系统支持列存储,实现特定数据列的高效访问,提高特定数据列的分类统计和排序的速度。 异步检索:支持异步检索模式,适应大并发(高连接数)的应用场景要求,避免了同步检索模式时消耗太多线程资源的问题。 多层次、多粒度的分布式CACHE:系统既有单节点的检索缓存,又有合并后的整体检索缓存,多层次多粒度的设计,大大提高了缓存的命中率,减轻高并发下的检索节点压力,从而大幅度提高系统在高并发情况下的数据检索能力。 可扩展的检索模式:同根词检索,算法和词典结合的英文词根检索,准确率达到99.9%。支持基于同义词、主题词的扩展检索。 性能需求 100并发检索,平均响应时间小于3秒。单服务器 数量(台) PC服务器配置 操作系统配置 检索服务器 1 支持2亿条日志数据等短数据的硬件配置:两颗四核CPU(推荐主频3.3GHz及以上), 64G内存及以上(推荐128G),10k或15k SAS; 支持10亿条日志数据等短数据的硬件配置:两颗四核CPU(推荐主频3.3GHz及以上), 64G内存及以上(推荐128G),PCIe接口SSD。 64位Linux包括X64平台的Redhat Linux AS5/6、CentOS6、SuSE Linux Enterprise Server10/11 多服务器分布式检索 数量(台) PC服务器配置 操作系统配置 检索服务器 n(n=2) 每个检索服务器节点支持2亿条日志数据等短数据的硬件配置:两颗四核CPU(推荐主频3.3GHz及以上), 64G内存及以上(推荐128G),10k或15k SAS; 每个检索服务器节点支持10亿条日志数据等短数据的硬件配置:两颗四核CPU(推荐主频3.3GHz及以上), 64G内存及以上(推荐128G),PCIe接口SSD。 64位Linux包括X64平台的Redhat Linux AS5/6、CentOS6、SuSE Linux Enterprise Server10/11 控制服务器 1(需要高可靠的话,采用3台控制服务器) 两颗四核CPU(3.3GHz及以上), 32G内存,10k或15k SAS。 64位Linux包括X64平台的Redhat Linux AS5/6、CentOS6、SuSE Linux Enterprise Server10/11 技术方案 软件配置 采用TRS海贝大数据管理系统实现10亿-1000亿条短数据(logs数据、书目数据、短信数据、微博数据、公安日志数据等)的检索服务。根据项目应用经验及TRS海贝大数据管理系统的性能测试指标,平衡系统的性能和可靠性(数据及索引按2份副本做冗余设计),建议每台检索服务器加载和

文档评论(0)

haihang2017 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档