一种大数据智能分析+平台的数据分析方法及实现技术.pdfVIP

一种大数据智能分析+平台的数据分析方法及实现技术.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种大数据智能分析+平台的数据分析方法及实现技术.pdf

应用研究 数字技术 与应用 一种大数据智能分析 平台的数据分析方法及实现技术 1 2 蓝科 李婧 (1.中国科学院成都计算机应用研究所,四川成都 610041;2. 中国科学院成都文献情报中心,四川成都 610041) 摘要:文章介绍了一种用于大数据智能分析平台的数据分析方法及实现技术,介绍了这种方法的需求和意义;和该方法的总体架构, 以 及在数据传输 、数据清洗和数据分析的实现; 概述了这种技术高并发 、大数据量的优化措施和跨平台的实现。 关键词 : 大数据 ;数据分析 ;数据挖掘 中图分类号:TP311 文献标识码:A 文章编号:1007-94 16(20 17)03-0 104-02 1 综述 采用:Storm或Spark Streaming框架进行实现。Spark Streaming 1.1 简介 将数据切分成片段,变成小批量时间间隔处理,Spark抽象一个持续 在数字化时代,需要新一代系统架构提升业务创新能力。在新 的数据流称为DStream(离散流),一个DStream是RDD弹性分布式 一代系统架构中,大数据是核心要素。业务应用能否自主发现与自 数据集的micro-batch微批次,RDD是分布式集合能够并行地被任 助获得高质量的大数据,就成为业务创新成败的关键。这就要在搭 何函数操作,也可以通过一个滑动窗口的数据进行变换。 建大数据平台时,就着手大数据治理相关建设。 2.3 归档数据 1.2 需求和意义 归档数据是在线存储周期超过数据生命周期规划的数据,处理 从某种意义上说大数据治理架构需要以元数据为核心、提高大 的要求一般在分钟级或速度更慢。通常归档数据的计算量、数据量、 数据质量、透明化大数据资产、自助化数据开发、自动化数据发布、 数据复杂度均超过试试数据处理。本平台中采用:Hadoop、Spark技 智能化数据安全,提升大数据平台服务能力,让大数据平台变得易 术生态体系内的框架进行计算,这里不详细阐述。 使用、易获得、高质量。 2.4 非结构化数据 但是,目前很多技术解决方案存在诸多安全和效率隐患:业务 通常非结构化的数据不一定具备字段,即使具备字段其长度也 系统多,监管力度大;数据量庞大且呈碎片化分布,急需提升大数据 不固定,并且字段的又可是由可不可重复和重复的子字段组成,不仅 质量;数据格式不规范、难以在短时间内找到所需数据;数据在各阶 可以包含结构化数据,更适合处理非结构化数据。常见的非结构化数 段的应用角度不同,需要降低系统间的集成复杂度。 据包括XML、文本、图象、声音、影音、各类应用软件产生的文件。 针对包含文字、数据的为结构化数据应当先利用数据清洗、数据 2 功能设计 治理工具进行提取,这项工作目前仍依赖技术员进行操作,由于格式 2.1 总体架构 的复杂性所以难以使用自动化方式进行较为高效的批处理。在治理 本文讲述的数据分析方法及实现技术是建立在Hadoop/Spark 数据的过程中,需要根据情况对数据本身额外建立描述数据结构的 技术生态圈的基础之上,以实现用户集成处理、、清理、分析的一个 元数据、以及检索数据的索引服务,以便后续更佳深度利用数据。 统一的数据处理平台;按数据类

文档评论(0)

聚文惠 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档