- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
二、大数据的技术实现 * 探索的数据处理流程 物料信息 工艺参数 操作信息 效益分析 ? 工艺分析 ? 报警分析 ? 运营信息 数据仓库 第二十八页,共五十八页。 二、大数据的技术实现 * Spark:大数据的“电光石火” Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,罕见的全能型选手 轻:Spark 0.6核心代码有2万行,Hadoop 1.0为9万行,2.0为22万行。一方面,感谢Scala语言的简洁和丰富表达力;另一方面,Spark很好地利用了Hadoop和Mesos的基础设施。虽然很轻,但在容错设计上不打折扣 快:Spark对小数据集能达到亚秒级的延迟,这对于Hadoop MapReduce是无法想象的。就大数据集而言,对典型的迭代机器学习、即席查询、图计算等应用,Spark版本比基于MapReduce、Hive和Pregel的实现快上十倍到百倍 灵:Spark提供了不同层面的灵活性。在实现层,完美演绎了Scala trait动态混入策略;在原语层,它允许扩展新的数据算子 、新的数据源、新的language bindings;在范式层,Spark支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种 范式 巧:Spark借Hadoop之势,与Hadoop无缝结合;无论是语法还是API,在实现上又能灵巧借力。 缺点:不能很好地支持细粒度、异步的数据处理 第二十九页,共五十八页。 二、大数据的技术实现 * Storm:高速处理流式数据 Storm是一个免费开源、分布式、高容错的实时计算系统。Storm令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求。Storm经常用于在实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。Storm的部署管理非常简单,而且,在同类的流式计算工具,Storm的性能也是非常出众的 Storm带着流式计算的标签华丽地出场了: 分布式系统、运维简单、高度容错、无数据丢失、多语言 Storm 物理拓扑结构 ?Nimbus服务器将拓扑 第三十页,共五十八页。 二、大数据的技术实现 * 2012-2013中国IT技术趋势大调查-数据管理的新技术预测 如上图所示,分布式存储与计算成为最受关注的数据管理新技术,比例达到29.86%;其次是内存数据库技术,占到23.30%;云数据库排名第三,比例为16.29%。此外,列式数据库技术、NoSQL也获得较多关注。从调查结果来看,以Hadoop为代表的分布式存储与计算已成为人们心目中大数据的关键技术。以SAP HANA为代表的内存数据库技术和以SQL Azure为代表的云数据库技术,也将成为占据重要地位的数据管理创新平台 第三十一页,共五十八页。 二、大数据的技术实现 * 2012-2013中国IT技术趋势大调查-商业智能的发展趋势 对于商业智能未来的趋势预测,调查显示排在前三位的是丰富的挖掘模型、实时的分析、精准的特定目的分析。其后是社交网络分析、云端服务和移动BI。由此看出人们期待商业智能应用能够在这些方面做出改变。 以上趋势不难看出,在大数据时代,人们把焦点放在那些能快速改变现状的颠覆性技术上,大数据存储与计算、数据挖掘与分析,以及商业智能等应用将在未来大放异彩 第三十二页,共五十八页。 二、大数据时代的技术特点 * 大数据背景下IT解决方案变化特点 第三十三页,共五十八页。 二、大数据的挑战 * 大数据的角色和技能 无论什么样的IT技术,说到底都是对人才的需求 数据科学家 行业知识 分析技能 商业智能专业人员 Hadoop、.Net 关系型数据库 业务分析 Business Analysts 1010101 11010 101 1 第三十四页,共五十八页。 二、大数据时代的算法 * 数据挖掘算法 十大经典算法 说明 其他八种算法 说明 1 C4.5 分类决策树算法 1 FP-Tree 关联分析算法 2 K-Means 聚类算法 2 HITS 链接挖掘 3 SVM 支持向量机 3 BIRCH 聚类算法 4 Apriori 布尔关联规则算法 4 GSP 序列模式算法 5 EM 概率模型 5 PrefixSpan 序列模式算法 6 PageRank Google专利算法 6 CBA 关联规则分类算法 7 Adaboost 迭代算法 7 Finding reduct 粗集类算法 8 KNN K最近邻分类算法 8 gSpan 频繁子图挖掘算法 9 Naive Bayes 朴素贝叶斯模型 10 CART 分类与回归树 The IEEE International Conference on Data Mi
原创力文档


文档评论(0)