- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
结构化大数据解决方案 十年一日,深入成就深度;业精于专,专注成就专业
结构化大数据解决方案
1 引言
现在,各行各业都已经认识到 “大数据”处理的价值,“大数据”已经成为一个炙手可
热的名称。可是,在2000年,我们开始研究 “大数据”的时候,它还只是学术小圈子里的
术语。经过十多年的研究和开发,我们先后推出了多个大数据处理的解决方案。它们涉及到
“大数据”的存储、访问和分析等问题的解决。
从内部组织结构来分,“大数据”可以分为非结构化大数据和结构化大数据。所谓 “非
结构化大数据”就是数据内部元素之间没有固定的,一致的组织关系的数据。例如各种视频、
文字、图片和表格的组合体。而“结构化大数据”内部具有固定的,一致的组织关系和结构。
非结构化大数据的处理技术已经得到了足够多的关注。但是,如何处理海量的结构化大数据
则仍然是一个问题。现在,针对结构化大数据,我们推出新一代的解决方案。
2 结构化大数据处理的挑战
结构化大数据通常存储在数据库中,以数据表的方式存储、访问、查询和管理。当数据
表的容量增长到一定程度后,就将面临以下问题:
1)数据更新速度无法满足应用要求。通常数据表都有索引、外键等内部组织结构。当
表的内容增大后,数据更新时对这些内部结构的维护开销也急剧增大,从而使得数据更新速
度急剧下降,以致无法满足应用需求。
2)数据查询速度无法满足应用要求。当数据表内容增大都一定程度后,一台服务器已
经无法将表数据大量载入内存,从而使得数据分析严重依赖磁盘数据读取。而磁盘读取的效
率远远低于内存访问,从而使得数据查询速度下降数个数量级。因此,随着表数据增大,查
询速度将急剧下降,以致无法满足应用要求。
3)数据表越来越不可靠。累计的数据就是财富,而将这些财富放在单个存储设备上,
将变得越来越无法让人放心。存储设备一旦出现故障,宝贵的财富也就化为乌有。因此,越
来越需要高可靠的数据存储方案。
针对上述三个问题,我们推出数字有机体结构化大数据处理解决方案,力图全面解决上
述三个问题。
成都天心悦高科技发展有限公司 1
结构化大数据解决方案 十年一日,深入成就深度;业精于专,专注成就专业
3 数字有机体结构化大数据处理解决方案
数字有机体结构化大数据处理的解决方案以数字有机体工作库为软件核心,依托高速网
络互连的服务器系统,解决结构化大数据查询的难题。其逻辑结构如图所示。
数字有机体工作库系统将一个逻辑数据表按照一定的规则自动分解到多台服务器的自
有存储系统中。当处理涉及到该逻辑数据表的查询时,数字有机体工作库自动将查询分解到
各台服务器上协同执行,通过整合这些服务器的处理能力,加速查询处理。和MPP(Massively
ParallelProcessing)数据库不同,数字有机体工作库在结构化大数据处理上具有以下功能:
1)数字有机体工作库支持同一个库中不同的表采用不同的分片策略,且支持某些表不
进行分片处理。这使得它可以适应各种复杂的应用环境。对小表的查询不会因为无意义的分
片而降低性能。
2)在进行小表和大表连接时,系统采用特殊的链接处理机制,处理效率更高,查询需
要的时间更短。
3)系统支持多种分片方式。当采用范围和列表方式时,系统可以根据查询条件过滤不
需要访问的分区,避免盲目的全表扫描,大幅度减少处理开销,从而可以支持更大的查询并
发度。
4)系统没有单一入口或者master节点,元数据维护更加简单,可以支持更大规模的系
统。
5)可以直接更新各个分片数据表,从而消除数据插入的瓶颈,解决表数据增大后插入
速度降低的问题。
6)系统支持分片多复制策略。即每个分片都可以有多个拷贝。分片复制间的同步支持
实时日志同步方式或者异步日志同步方式。提升数据的可靠性,使得数据表不会因为某个存
储设备故障而丢失。
成都天心悦高科技发展有限公司 2
结构化大数据解决方案 十年一日,深入成就深度;业精于专,专注成就专业
7)系统支持多个表间的诱导分片机制。当多个表间采用诱导
文档评论(0)