- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的大量而复杂的数据集合。
——维基百科
数量大、获取速度快或形态多样的数据,难以用传统关系型数据分析方法进行有效分析,或者需要大规模的水平扩展才能 高效处理。 ——美国NIST
体量大、快速和多样化的信息资产, 需用高效率和创新型的信息技术加以处理,以提高发现洞察、做出决策和优化流程的 能力。 ——Gartner公司
——大数据的异构和多样性, 非结构化占80~90%
——很多不同形式(文本、图像、视频、机器数据)
——无模式或者模式不明显, 不连贯的语法或句义
——数据实时产生,要求高速采集、存储于处理
——交易、传感等数据需要实时分析而非批量分析
——数据分析结果要求立竿见影而非事后见效
——每18个月全球新增信息量是之前全部信息量的总和(Jim Gray) ——数据量从TB量级到PB量级
体量Volume
再识大数据
认 的 三 个 特 征
公
01
保存与传承
文字
大范围传播与 持久保存
这一轮大数据的新特点:
1)整个人类社会都数字化了,可以被以数 据形式监控、计算、统计、分析、预测、控 制。
口耳相传
语言
• 人类历史上的信息革命,语言、文字、印刷和互联网的出现,都半 生大数据现象。
• “大数据”引发的进步将信息技术的运用推向了新的阶段,对时代 进步产生巨大推力。
距今10万年前 距今5000年前 公元1000年 公元2000年 01
“大”数据的需求一直存在,是信息化需求与信息处理技术供给间暂时失调的一种现象。
再识大数据
2)计算能力超越以往。
印刷术
40ZB
2003年以后以社交、电商、
博客为代表的Web2.0应用, 吸引了众多网民,数据量 迅速积累。
2010年以后的移动互联网 彻底让各类应用实现了在 线化,网民可以高频的访 问各类应用。
2000年左右网站指数增
加,首先给搜索公司的 爬取存储以及检索带来 了困难。
互联网时代的数据大爆炸
设备数据
LBS数据
视频数据
文档数据
交易数据
图片数据
2015 8ZB
2003 5EB
2020
01
管理节点繁 忙,彼此间 信息交互频 繁,任务互 相依赖
处理架构的改变
单机模 式
分布式 架构
管理节点相 对轻松,扩 展能力有限
01
大数据给互联网带来的巨大价值
支付
财付通 支付宝
电商
淘宝
天猫
京东
地图
高德
百度
新闻
今日头条 一点资讯 网易新闻
打车
滴滴
滴答
视频
腾讯视频
爱奇艺
优酷
游戏
腾讯游戏 网易游戏
旅游
携程
穷游
社交
微信
QQ
钉钉
搜索
百度
搜狗
搜索指数
01
用户画像 精准营销
人口热力图
个体 分析
宏观 趋势
内容推荐
1、丰富的数据 台是基础条件
和强大的平
2、 获取
应用不是飞跃型的, 靠
长期的效益累积
3、 续不
累积效益的获取,靠持
断的技术迭代
4、技术和应用 是快速迭代的
一体化组织, 保障
技术格局决定了,在应用上,也呈现互联网领域领先,其他行业积极效仿的态势。
政府
舆情分析、民意调查
电信
话单分析、智能管道
大数据从消费互联网渗透产业互联网
零售
趋势预测、“啤酒+尿布”
个性推荐
亚马逊等60%以上交易来源
搜索引擎
最早的互联网大数据应用
定向广告
互联网最主要的商业模式
趋势预测
……
金融
欺诈防范、征信评估
医疗
疾病监测、基因分析
谷歌基于用户搜索数据预报流感
其它应用
语音、翻译、驾驶、穿戴设备 ……
其他行业普遍在探索中
01
数据驱动的基本思想:当物质世界的潜力越来越难以挖掘的时候,通过数据 分析提供的指导来优化物质世界运行,有望打开广阔的增长新空间。
一切都可计算、分析、预测
大数据的目标
物质世界全面数据化
反馈、控制、优化…
01
汽车行业的转型动力
• 2018年,汽车行业遭遇28年以来首次负增长, 2019年以来下滑态
文档评论(0)