- 1、本文档共66页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据分析方法与技术实务
大数据分析技术与方法目 录第一部分数据分析时代背景第二部分数据分析平台技术第三部分数据仓库建模方法第四部分数据分析与数据挖掘数据分析时代的背景数据量增加数据结构日趋复杂大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长根据IDC 监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020 年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。TBPBEBZB这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时代正在来临…大数据的4V特征非结构化数据的超大规模和增长占总数据量的80~90%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍体量Volume大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义多样性Variety大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)价值密度Value速度Velocity实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”要解决的问题Velocity快速的数据流转大数据技术被设计用于在成本可承受的条件下,通过非常快速(velocity)地采集、发现和分析,从大量(volumes)、多类别(variety)的数据中提取数据价值(value),将是IT 领域新一代的技术与架构。ValueVolume海量的数据规模Variety多样的数据类型发现数据价值数据处理相关技术海量数据存储:结构化数据:海量数据的查询、统计、更新等操作效率低非结构化数据图片、视频、word、pdf、ppt等文件存储不利于检索、查询和存储半结构化数据转换为结构化存储按照非结构化存储分析技术:统计和分析:A/B test; top N排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真解决方案:Hadoop(MapReduce技术)流计算(twitter的storm和yahoo!的S4)Spark(基于内存的分布式计算)大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL基础架构支持:云存储;分布式文件系统计算结果展现:云计算;标签云;关系图数据处理与分析框架数据平台技术数据仓库架构元数据管理数据质量监控数据监控数据挖掘数据应用智能分析算法数据分析报表展示Pig!数据处理ETL数据应用大规模计算数据仓库数据集市汇总加工数据海量数据存储HIVE明细数据源数据数据采集ZooKeeper分布式文件系统目 录第一部分数据分析时代背景第二部分数据分析平台技术HDFS+MapReduce+HiveStorm+Spark第三部分数据仓库建模方法第四部分数据分析与数据挖掘不同分析场景解决方案根据响应时长可以将应用需求进行如下划分:实时应用场景(0~5s):Storm、S4、Cloudera Impala,Apache Drill等;交互式场景(5s~1m):最好支持SQL,: Shark 、Cloudera Impala、Apache Drill等;非交互式场景(1m~1h):MapReduce、Hive、Pig、Stinger等;批处理场景(1h+)运行时间较长,处理数据量较大,对容错性和扩展性要求较高MapReduce、Hive、Pig、Stinger等。Hadoop 生态系统Data accessed through multiple entry pointsOozie工作流引擎Hive Metastore(HCatalog)ExternalDataSourcesCloudera Navigator访问授权控制UsersMahoutHiveQLPigSqoop+FlumeProcessing Framework(Map-Reduce)HIVEHBaseHDFS storage layer分布式文件系统- HDFS采用主从架构,由一个Namenode和若干个Datanode组成;Namenode:负责管理名字空间与客户端访问;Datanode:管理附带的存储,存储文件的block;一个文件分成多个block,Block是HDFS最小存储与分配单位, 分布存储,典型块大小为64MB或128MB;一个block被复制存放于多个datanode。HDFS 文件写入流程客户端调用create()来创建文件;FileSystem用RPC调用NameNode,NameNode创建一个新的文件。FileSystem返回OutputStream,用于客户端写数据;客
文档评论(0)