网站大量收购独家精品文档,联系QQ:2885784924

亚信黄国甫-大数据技术v266.pdf

  1. 1、本文档共66页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
亚信黄国甫-大数据技术v266

大数据技术 海量数据的存储、计算、信息提取 2014年03月 课程目标 通过2个半小时的学习 可以实现的是: 无法实现的是: 理解什么是大数据 掌握M/R编程 清楚大数据能做什么 精通HQL 知道什么是hadoop ,什么是hive 掌握机器学习技术 掌握hadoop的基本操作 掌握hive的基本操作 了解什么是机器学习 知道成为大数据专家需要学习哪 些知识 原因说明:m/r编程需要安装开发环境,需要自己动手写一个程序,一般需要一天以上的时间来完成入门,真正掌握,开发 出有效率的代码则需要编程经验的积累; HQL涉及的方面很多,尤其是编写高效的语句非常需要日常积累; 机器学习需要多学科的知识,尤其是基于大数据的机器学习更需要掌握编程技能 目录 1 大数据简介 2 大数据存储与计算 3 从数据中获取信息 大数据简介—大数据定义 什么是大数据? 大数据简介—大数据定义 麦肯锡:大数据是指无法在一定时间内用传统数据库 软件工具对其内容进行抓取、管理和处理的数据集合。 IDC (互联网数据中心):大数据技术是新一代的技 术与架构,它被设计用于在成本可承受的条件下,通 过非常快速(velocity)的采集、发现和分析,从大体 量(volumes)、多类别(variety)的数据中提取价值。 高德纳:大数据是大量、高速、多变的信息资产,它 需要新型的处理方式去促成更强的决策能力、洞察力 与优化处理 (velocity ,volumes ,variety , value ); 大数据简介—大数据历史 1944年,卫斯理大学图书管理员赖得认为到2040年美国大学的图书将超过20亿册 1961年,普赖斯 在 《Science Since Babylon》杂志发布文章认为新期刊的数量呈指数级增长 1964年,哈里和亨利发表文章“应对信息爆炸的技术”,他们认为应该少发布信息 1967年,马龙和曼尼发表文章“数据自动压缩”,通过压缩应对信息爆炸 1981年,匈牙利中央统计办公室开始一个项目,研究国家的信息产业,包括信息量大小。 1996年,毛里斯和查科斯基发表文章,认为数字存储比纸质存储更划算 1997年,迈克尔.考克斯和大卫.埃尔斯沃思发表文章首次谈到大数据这个词 2001年,倒戈.兰尼发表调查报告,首次谈到3v ,velocity ,volumes ,variety 2008 Randal E. Bryant, Randy H. Katz, and Edward D. Lazowska等人发表文章,认为大数据计算是商业、 社会、科学等领域变革突破的动力 …… 大数据简介—大数据发展趋势 大数据为什么这么火? 一些大数据的传说: 大数据是未来世界的石油 数据将成为一切行业当中决定胜负的根本因素,最终数据将成为 人类至关重要的自然资源 大数据,是下一轮创新、竞争和生产力的前沿 谁拥有了数据以及对数据的发掘能力,谁就将占领下一个十年

文档评论(0)

tangtianbao1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档