新数据挖掘课件_18.大数据分析.pptx

DMKD Sides By MAO;大数据分析;内容提要; 21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。 互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。;5;6;7;8;9;想驾驭这庞大的数据,我们必须了解大数据的特征。;IDC定义:为了更为经济的从高频率获取的、大容量的、不同结构和类型的数据中获取价值,而设计的新一代架构和技术。;大数据 = 海量数据 + 复杂类型的数据;大数据不仅仅是“大”;大数据对系统的需求;密不可分的大数据与云计算;软件是大数据的引擎;大数据生态:软件是引擎;大数据的应用不仅仅是精准营销;管理大数据“易”理解大数据“难”;分析技术: 数据处理:自然语言处理技术 统计和分析:A/B test; top N排行榜;地域占比;文本情感分析 数据挖掘:关联规则分析;分类;聚类 模型预测:预测模型;机器学习;建模仿真 大数据技术: 数据采集:ETL工具 数据存取:关系数据库;NoSQL;SQL等 基础架构支持:云存储;分布式文件系统等 计算结果展现:云计算;标签云;关系图等;行业拓展者,打造大数据行业基石:;政府职能变革 重视应用大数据技术,盘活各地云计算中心资产:把原来大规模投资产业园、物联网产业园从政绩工程,改造成智慧工程; 在安防领域,应用大数据技术,提高应急处置能力和安全防范能力; 在民生领域,应用大数据技术,提升服务能力和运作效率,以及个性化的服务,比如医疗、卫生、教育等部门; 解决在金融,电信领域等中数据分析的问题:一直得到得极大的重视,但受困于存储能力和计算能力的限制,只局限在交易数型数据的统计分析; 政府投入将形成示范效应,大大推动大数据的发展。;美国奥巴马政府在白宫网站发布《大数据研究和发展倡议》,提出“通过收集、处理庞大而复杂的数据信息,从中获得知识和洞见,提升能力,加快科学、工程领域的创新步伐,强化美国国土???全,转变教育和学习模式” ; 中国工程院院士邬贺铨说道,“智慧城市是使用智能计算技术使得城市的关键基础设施的组成和服务更智能、互联和有效,随着智慧城市的建设,社会将步入“大数据”时代。” 难点: 1、在最初就合理规划智慧城市(深度思考哪些领域能够运用); 2、在城市发展基础设施和“云产业”的同时,更多重视“数据”的价值; 3、在大数据处理领域的核心技术不足,需要政府更大的投入。;政府、金融、电信等行业投资建立大数据的处理分析手段,实现综合治理、业务开拓等目标;应用到制造等更多行业。;数据的再利用: 由于在信息价值链中的特殊位置,有些公司可能会收集到大量的数据,但他们并不急需使用也不擅长再次利用这些数据。例如,移动电话运营商建立呼叫时会从HLR获得用户位置信息,这对于运营商来说,数据只有狭窄的技术用途。但当它被一些发布个性化位置广告服务和促销活动的公司再次利用时,则变得更有价值。;大数据赋予我们洞察未来的能力;结构化数据向非结构化数据演进,使得未来IT投资重点不再是建系统为核心,而是围绕大数据为核心; 海量数据可以在各个部门创造重大的财物价值,未来投资倾斜。 ;大数据市场分析;29;30;31;32;33;34;35;36;37;38;39;40;41;42;43;44;45;46;47;48;49;50;51;52;53;54;55;56;57;58;59;60;61;62;63;64;65;66;67;68;69;70;71;72;73;74;75;76;77;78;79;80;大数据主要应用技术——Hadoop;Apache Hadoop 概览;2004年-- 最初的版本(现在称为HDFS和MapReduce)由Doug Cutting和Mike Cafarella开始实施。 2006年1月-- Doug Cutting加入雅虎。 2006年2月-- Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。 2006年2月-- 雅虎的网格计算团队采用Hadoop。 06年12月-- 标准排序在20个节点上运行1.8个小时,100个节点3.3小时,500个节点5.2小时,900个节点7.8个小时。 08年4月-- 赢得世界最快1 TB数据排序在900个节点上用时209秒。 08年10月-- 研究集群每天装载10 TB的数据。 09年3月-- 17个集群总共24 000台机器。 09年4月-- 赢得每分钟排序,59秒内排序500 GB(在1400个节点上)和173分钟内排序100 TB数据(在3400个节点上)。

文档评论(0)

1亿VIP精品文档

相关文档