- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
10亿-1000亿条日志数据等短数据的检索引擎方案
目录
第1章 功能需求 1
第2章 性能需求 2
第3章 技术方案 3
3.1 软件配置 3
3.2 硬件配置 4
附录:TRS海贝大数据管理系统(Hybase) 5
功能需求
针对10亿-1000亿条短数据(logs数据、书目数据、短信数据、微博数据、公安日志数据等), 检索引擎能够实现结构化数据和非结构化数据的统一检索, 即字段按需建立B+树索引或全文索引, 实现字段之间的组合检索。此外,检索引擎具备以下特点:
扁平化设计,弹性扩展:系统采取扁平化设计,节点之间完全对等,都可以对外提供服务。扁平化的架构,使整个系统没有单点故障,任何一个节点的故障都不影响系统对外提供服务;同时扁平化的架构使系统具有良好的扩展性,只需在线增加新的节点就可以提供系统的容量和对外服务能力。
异常感知、自动恢复:大数据管理系统将硬件异常作为常见异常来处理。系统可以自动感知服务器的异常状态,并进行自我修复,不会因为单个节点的异常导致整个系统不可用。
柔性多引擎技术:大数据管理系统使用多引擎机制,定义一个标准的引擎接口。对于不同的应用需求可以使用不同的引擎来对外提供服务,用户甚至可以构建自己的引擎来扩展系统的数据处理能力。支持异构数据:结构化,半结构化,非结构化数据的统一检索。
高效分区索引机制:可根据应用的查询特点,将数据自动分区索引,充分发挥现代PC多核服务器、大内存的优势,采用并行索引,多路合并的方式,变随机读写为顺序读写,实现高速的索引创建,适应海量数据的集中索引和快速索引的应用需求。同时,分区索引还可以减少检索时的索引匹配范围,缩短检索响应时间。
多副本机制:一个索引可由多个子集组成,分布在不同的节点上,实现分布式检索;索引的各个子集可在不同的节点上存储多个副本,索引子集多副本实现了容灾备份,避免单点故障,同时也实现了负载均衡,提高并发检索能力。
混合索引方式:提供按词索引、按字索引、字词混合索引方式,满足不同应用场景对查全和查准的不同需求。
内存表与列存储:支持在内存中建立数据表,适应数据量较少,但查询并发与响应速度要求很高的应用需求。系统支持列存储,实现特定数据列的高效访问,提高特定数据列的分类统计和排序的速度。
异步检索:支持异步检索模式,适应大并发(高连接数)的应用场景要求,避免了同步检索模式时消耗太多线程资源的问题。
多层次、多粒度的分布式CACHE:系统既有单节点的检索缓存,又有合并后的整体检索缓存,多层次多粒度的设计,大大提高了缓存的命中率,减轻高并发下的检索节点压力,从而大幅度提高系统在高并发情况下的数据检索能力。
可扩展的检索模式:同根词检索,算法和词典结合的英文词根检索,准确率达到99.9%。支持基于同义词、主题词的扩展检索。
性能需求
100并发检索,平均响应时间小于3秒。单服务器
数量(台) PC服务器配置 操作系统配置 检索服务器 1 支持2亿条日志数据等短数据的硬件配置:两颗四核CPU(推荐主频3.3GHz及以上), 64G内存及以上(推荐128G),10k或15k SAS;
支持10亿条日志数据等短数据的硬件配置:两颗四核CPU(推荐主频3.3GHz及以上), 64G内存及以上(推荐128G),PCIe接口SSD。 64位Linux包括X64平台的Redhat Linux AS5/6、CentOS6、SuSE Linux Enterprise Server10/11
多服务器分布式检索
数量(台) PC服务器配置 操作系统配置 检索服务器 n(n=2) 每个检索服务器节点支持2亿条日志数据等短数据的硬件配置:两颗四核CPU(推荐主频3.3GHz及以上), 64G内存及以上(推荐128G),10k或15k SAS;
每个检索服务器节点支持10亿条日志数据等短数据的硬件配置:两颗四核CPU(推荐主频3.3GHz及以上), 64G内存及以上(推荐128G),PCIe接口SSD。 64位Linux包括X64平台的Redhat Linux AS5/6、CentOS6、SuSE Linux Enterprise Server10/11 控制服务器 1(需要高可靠的话,采用3台控制服务器) 两颗四核CPU(3.3GHz及以上), 32G内存,10k或15k SAS。 64位Linux包括X64平台的Redhat Linux AS5/6、CentOS6、SuSE Linux Enterprise Server10/11
技术方案
软件配置
采用TRS海贝大数据管理系统实现10亿-1000亿条短数据(logs数据、书目数据、短信数据、微博数据、公安日志数据等)的检索服务。根据项目应用经验及TRS海贝大数据管理系统的性能测试指标,平衡系统的性能和可靠性(数据及索引按2份副本做冗余设计),建议每台检索服务器加载和
您可能关注的文档
最近下载
- 21CS03-3:一体化预制泵站选用与安装(三).docx VIP
- 2025届高考物理考点一轮复习:功能关系 能量守恒定律(解析版).pdf VIP
- 二年级上册语文教案 第七单元.docx VIP
- 快递业务操作规范与流程.pdf VIP
- 用在线乳化技术实现柴油机低温燃烧的研究 the experimental study of online emulsification technology in realizing diesel low- temperature combustion.pdf VIP
- 课桌椅项目实施方案-(范文模板).docx VIP
- 快递服务行业业务查询处理规范.doc VIP
- PDCA循环工作方法培训.pptx VIP
- 快递业务操作规范及投诉处理.doc VIP
- 充电桩采购安装项目售后服务承诺.docx VIP
文档评论(0)