TRS大数据处理平台解决的方案2.0.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
北京拓尔思信息技术股份有限公司 TRS 大数据处理平台解决方案v2.0 越来越多的国内外互联网公司和传统企业都已意识到数据资产化和规模化 带来的价值,低成本和高效率存储、处理、检索和分析PB 乃至EB 量级的数据成 为极大挑战,向数据要价值使得几乎每个行业都面临着大数据问题。以IBM、 Oracle 和EMC 代表的传统数据处理系统成本高、能耗高、扩展性差,而且将数 据的存储、管理和计算孤立开来,难以同时实现大数据的全生命周期处理。需要 研究成本低、能耗低、可扩展性强、存储与处理耦合协同的大数据处理新型体系 架构,提高处理性能和效率,实现大数据规模效应下的数据可靠存储和高效处理。 以Hadoop 和Spark 为代表的一系列开源技术,成为大数据存储、处理和分 析的主力军。互联网企业广泛使用开源软件,但开源软件直接用于企业的大数据 处理有很多挑战和困难,其主要原因在于需求、服务、研发和运维体系完全不同, 从需求的角度,企业应用中业务逻辑复杂、数据来源和种类多样性、单一的大数 据解决方案无法满足企业复杂的业务需求,同时企业信息系统对安全和系统可靠 性要求很高。从成本的角度,企业用户也不可能雇佣大批高水平的研发人员来研 发和运维基于开源的大数据应用系统。标准化的、安全和可靠性极高、满足自身 复杂业务需求的大数据技术和产品仍然是企业用户的首要选择。 检索引擎的功能和性能决定了大数据系统的响应能力和可用性,同时很多大 数据分析和交互挖掘操作也依赖于底层的实时查询技术,因此在PB 级数据规模、 多源异构数据(结构化、半结构化、非结构化数据)的场景下,能够获得秒级甚 至亚秒级响应成为一个大数据应用系统的关键指标, 只有这样,才能保障复杂大 数据的及时有效处理(规模大、变化快、种类杂、价值密度低)。此外, 文本挖 掘是提升非结构化数据分析效果的关键技术, 特别是中文文本挖掘; 大规模互联 网信息的精准采集、组织内部异构数据的精准采集等数据获取技术是大数据系统 的基石。 以Hadoop 和Spark 为基础,选择成熟、优异的开源软件, 结合TRS 实践积 累的检索引擎、文本挖掘、多源异构数据采集和加工等非结构化数据处理技术, 构建TRS 大数据处理平台(框架) ,以基本一致的方式应对不同的大数据处理场景 (数据处理模型 ),包括Iterative Algorithms ,Realtime Queries ,MapReduce , Stream Processing 等,支撑行业大数据应用的开发和落地。 1 北京拓尔思信息技术股份有限公司 大数据处理系统一般需要经过四个主要环节,包括数据准备、数据存储与管 理、计算处理、数据分析。 (1 )数据准备:在进行存储和处理之前,需要对数据进行清洗、整理,传 统数据处理体系中称为 ETL (Extracting ,Transforming ,Loading )过程。 (2 )数据存储与管理:大数据存储系统不仅需要以极低的成本存储海量数 据,还要适应多样化的非结构化数据管理需求,具备数据格式上的可扩展性。 (3 )计算处理环节:海量数据处理要消耗大量的计算资源,对于传统单机 或并行计算技术来说,速度、可扩展性和成本上都难以适应大数据计算分析的新 需求。分而治之的分布式计算成为大数据的主流计算架构,但在一些特定场景下 的实时性还需要大幅提升。 (4 )数据分析环节:数据分析环节需要从纷繁复杂的数据中发现规律提取 新的知识,是大数据价值挖掘的关键。 前三个环节能够做成标准化的通用基础软件, 支撑第四个环节的数据分析 软件以及行业应用的开发, TRS 大数据处理平台(框架)属于数据存储管理和计算 处理软件, TRS SearchAdaptor 属于ETL 软件;数据分析软件更靠近行业应用,

文档评论(0)

东方888 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档