cayman非结构化数据仓库-dana智能大数据开发平台.pdfVIP

cayman非结构化数据仓库-dana智能大数据开发平台.pdf

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
cayman非结构化数据仓库-dana智能大数据开发平台

Cayman 非结构化数据仓库 技术白皮书 May. 2016 1 简介 在信息社会,信息可以划分为两大类。一类信息能够用数据或统一的结构加 以表示,我们称之为结构化数据,如数字、符号;而另一类信息无法用数字或统 一的结构表示,如文本、图像、声音、网页等,我们称之为非结构化数据。过去 的二十年,由 Oracle 等数据库厂家引领了信息化的革命,使结构化数据的管理 变得简便易用。但是随着大数据及云平台时代的到来,来自互联网、个人、新媒体 等平台的数据浩如烟海,非结构化数据在数据增长中占的比重越来越大,传统的 数据库等手段无法很好的解决大数据下的管理问题,数据变成了一种难以管理的 数据洪流。而如果没有恰当的管理,将会产生大量重复和不一致的数据。 在数据智能时代,数据的采集、传输、存储、计算和分析都是至关重要的。 数据的战略意义不仅在于存储和管理庞大的数据信息,更在于对这些含有意义的 数据进行专业处理和分析 ,挖掘数据的潜在价值。DATATOM 在非结构化数据 的存储和管理领域已经积累了多年的实践经验,奠定了在非结构化数据管理领域 的领军地位。Cayman 非结构化数据仓库的设计目标不仅仅是解决海量非结构 化数据的存储问题、管理问题 ,还在于对现有数据进行统计分析及价值挖掘 ,并 为合作伙伴提供丰富的用于二次开发的API 接口。 Cayman 非结构化数据仓库具有以下优势 :  提供 Linux、Windows、Mac OS 等平台虚拟盘;  提供 C/C++、Java、PHP 等常用开发语言平台 SDK ;  采用分布式对象存储和基于元数据的管理轻松匹配海量数据;  提供扁平化的Web 管理控制台 ,详细的引用描述和二次开发应用示例 ; 1 产品架构 Cayman 非结构化数据仓库考虑到需要针对非结构化数据的存储和管理为 开发者提供统一的服务 ,因此Cayman 系统基于服务层提供了一系列的 RESTful API 接口对服务进行封装。服务层不仅仅提供基础的数据存储服务和数据管理服 务,还提供一些高级的数据挖掘服务。 Cayman 非结构化数据仓库采用了全对称分布式的系统架构 ,所有节点无论 是硬件资源还是软件配置均完全对等 ,具有非常良好的可扩展性和高可用性。系 统的服务层充分利用了存储层中闲置的计算资源,将数据管理中与数据处理紧密 结合的应用下沉到存储端实现,比如可以实现数据模型的建立、数据应用处理和 数据挖掘分析等 ,避免了资源的过度浪费。 系统架构如下图所示: 全对称分布式架构系统中的所有节点均完全对等,无单点故障和性能瓶颈 , 不仅可以更好的方便客户进行升级维护,还可以帮助用户轻松实现以应用和数据 为中心横向扩展(Sale-Out )业务的能力。 2 引擎特性 智能数据收集 Cayman 非结构化数据仓库提供了智能的数据收集工具 ,不仅可以对传统的 业务数据进行 ETL 抽取,还可以对图片、文档、音频、视频等非结构化大数据进 行收集,甚至可以使用 Spider 对网页内容进行爬取。这些智能数据收集工具提 供可视化的配置和全局监控管理界面,并可对收集的数据进行基础法规检查、规 则过滤等操作。 海量数据存储 1. 分布式对象存储 传统的对象存储在存储数据时需要用户将数据完全写入到存储后 ,另一个用 户才可以读取数据,如此一来,写入速度成了高速存储的瓶颈。Cayman 非结构 化数据仓库打破了传统思维的禁锢,重新建立了一套私有的高效数据存储机制 3 DOSS (DATATOM Object Storage System )分布式对象存储。 它与传统的

文档评论(0)

ailuojue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档