网站大量收购独家精品文档,联系QQ:2885784924

POcean 海量数字资源系列产品白皮书.docxVIP

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE \* MERGEFORMAT20 ===海量数字资源系列产品=== 新媒体 大数据 定制服务 产品白皮书 POcean 海量数字资源系列 使命:为政府及企业用户解决新媒体时代海量数字资源管理与利用的问题。 愿景:成长为优秀的面向数字资源领域的大数据技术提供商,充分挖掘数字资源内在价值。 大数据带来的机遇 随着信息技术特别是信息通讯技术的发展,互联网、社交网络、物联网、移动互联网、云计算等相继进入人们的日常工作和生活中,全球数据信息量呈指数式爆炸增长之势。政府中大量非结构化数据的存量,企业内部大量数据的处理需求产生了大数据发展的驱动力。 大数据的包容性推进我国新媒体行业发展进度,打开传统的电视、广播、报纸等媒体之间的边界,消解国家之间、社群之间、产业之间的边界,消解信息发送者与接收者之间的边界,政府各部门间、政府与市民间的边界,同时又能通过大数据应用提升新媒体行业服务水平。 东软集团股份有限公司(以下简称东软)凭借在非结构化数据管理、互联网技术应用和海量数字资源处理方面的优势,基于分布式技术,结合政府和企业在新媒体时代海量数字资源采集、存储、搜索、分析利用方面的具体需求,开发出了针对海量数字资源相关的系列产品。 图 业务蓝图 分布式资源采集系统 分布式资源采集系统是东软在大数据环境下,为满足海量数字资源搜集的要求而倾力打造的一款具有革命性架构设计的产品。系统面向不同数据类型,如日志文件、音频、视频、图片,网络资源,社会化数据,提供不同的采集配置,充分满足大数据时代客户对多样化数据类型搜集的需求,针对不同数据级别的存储可灵活选择合适的存储方案。采用高可扩展性架构设计,完美支持新类型数据来源的采集及新类型的数据存储,为客户量身定制海量数字资源采集服务。 全面 大数据环境下,数据类型早已不再单一,包括以文本为主的结构化数据,网络日志、音频、视频、图片等等多类型的数据,同时还包括机器数据、社会化数据,面对这些多样性的数据来源,系统从采集、处理、存储整个流程提供全面的解决策略,包括不同类型数据源采集配置、多种数据存储方案、不同数据量级的采集任务。 大数据 企业数据随着大数据时代的到来,越来越多以非结构化数据的形式存在,未来可能会产生更多的数据类型,数据量也在不断剧增。针对多类型数据来源、不同数据量级的特点,以组件方式提供灵活的数字资源采集方案;基于弹性扩展架构实现海量PB级数据的高性能存储。基于分布式技术实现亿级数据的高性能采集。 扩展性 为了保障未来业务增长对采集扩展的新需求,以组件化的方式支持新类型数据源采集扩展、新类型存储方式的存储扩展;以分布式技术支持采集规模的扩展,提供可定制的采集服务,同时能够满足业务随需而变。 分布式资源采集系统 系统结构 主要功能 网络资源抓取,按照一定的规则自动的抓取互联网信息。对不同领域,不同背景的用户按照其关心的信息提供检索目录,过滤用户不关心的数据。更好的发现和获取图片、数据库、音频、视频多媒体等信息量密集且具有一定结构的数据。 ETL工具,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。 集群,通过集群技术可以在付出较低成本的情况下获得在性能、可靠性、灵活性方面的相对较高的收益,其任务调度则是集群系统中的核心技术。集群是一组相互独立的、通过高速网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理。一个客户与集群相互作用时,集群像是一个独立的服务器。集群配置是用于提高可用性和可缩放性。集群具有提高性能,降低成本,提高扩展性,增强可靠性等特点。 分布式资源仓储系统 基于OAIS标准和各组织机构数字资源特点形成的数字资源模型,采用高可靠架构设计,提供了面向海量数字资源的长期存储与管理,解决了资源的多样化展现、多层次关联、版本化管理等问题。实现了数字资源的组织管理、资源转换、资源存储以及资源分析等一系列管理功能。系统不绑定任何底层存储结构,可根据业务特点定制存储模式。通过横向可扩展的弹性存储技术,支持PB级的海量资源存储,是一种全新的稳定、高效的数字资源存储解决方案。 海量资源 针对分布广泛、表现形式多样化的海量数字资源,我们采用了批量处理、分布式技术实现高效的存储。长期保存 具有完整性、可读取、可移植等特性,有效的解决了资源多样性、资源多版本、资源多层次、资源间多关联的问题,为海量数字资源的长期存储提供保障。 弹性存储 提供突破性的数据存取速度、更简易的管理以及随着数据量的增加,更加快速

文档评论(0)

nuvem + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档