- 1、本文档共73页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
——大数据引领我们走向数据智能化时代;;;大数据时代的背景;全球每秒钟发送2.9百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5年…
每天会有2.88万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3年…
推特上每天发布5千万条消息,假设10秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16年…
每天亚马逊上将产生6.3百万笔订单…
每个月网民在Facebook上要花费7千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB…
Google上每天需要处理24PB的数据…;;20世纪90年代,数据仓库之父的BillInmon就经常提及BigData。;体量Volume;Value价值;;Variety多样性;非结构化数据;Velocity速度;Volume数据量;大数据不仅仅是“大”;指数型增长的海量数据;大数据=海量数据+复杂类型的数据;;;;软件是大数据的引擎;大数据生态:软件是引擎;
大数据技术被设计用于在成本可承受的条件下,通过非常快速(velocity)地采集、发现和分析,从大量(volumes)、多类别(variety)的数据中提取价值(value),将是IT领域新一代的技术与架构。
;技术领域的挑战;分析技术:
数据处理:自然语言处理技术
统计和分析:A/Btest;topN排行榜;地域占比;文本情感分析
数据挖掘:关联规则分析;分类;聚类
模型预测:预测模型;机器学习;建模仿真
大数据技术:
数据采集:ETL工具
数据存取:关系数据库;NoSQL;SQL等
基础架构支持:云存储;分布式文件系统等
计算结果展现:云计算;标签云;关系图等;大数据的相关技术;数据众包;大数据的相关技术;分布式文件系统;分布式文件系统;分布式文件系统;分布式文件系统;分布式文件系统;非关系型数据库NoSQL;非关系型数据库NoSQL;非关系型数据库NoSQL;大数据赋予我们洞察未来的能力
它运行于廉价的普通硬件上,将服务器故障视为正常现象,通过软件的方式自动容错,在保证系统可靠性和可用性的同时,大大减少了系统的成本。
ImageID=1
每个项目都具备一个唯一的主键值。
大数据技术被设计用于在成本可承受的条件下,通过非常快速(velocity)地采集、发现和分析,从大量(volumes)、多类别(variety)的数据???提取价值(value),将是IT领域新一代的技术与架构。
Bigtable是一个键值(key-value)映射。
2011年4月,iOS被发现会按照时间顺序记录用户的位置坐标信息
某个项目中的属性和同一个表中的其他项目的属性也没有关系。
日后凡是顾客在塔吉特消费,计算机系统就会自动记录消费内容、时间等信息。
HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。
企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互信息,位置信息等是大数据的主要来源.
人们每天创建的数据量正呈爆炸式增长,但就数据保存来说,我们的技术改进不大,而数据丢失的可能性却不断增加。
Velocity速度
可以告诉我们未来会发生什么。
下面是关于属性的一些实例:
某个项目中的属性和同一个表中的其他项目的属性也没有关系。
例如,医疗卫生提供商会处理掉他们所产生的90%的数据(比如手术过程中产生的几乎所有实时视频图像)。
如果有更高的传输需求,DynamoDB也可以在后台添加更多的服务器。
云计算是一种资源交付和使用模式,指通过网络获得应用所需的资源(硬件、平台、软件)。
非关系型数据库NoSQL;非关系型数据库NoSQL;非关系型数据库NoSQL;非关系型数据库NoSQL;非关系型数据库NoSQL;非关系型数据库NoSQL
它包括了呼叫详细记录、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输协议传送的海量图像文件、Web文本和点击流数据、评价数据、科学信息、电子邮件等等。
2011年4月,iOS被发现会按照时间顺序记录用户的位置坐标信息
Target还可以从其他相关机构那里购买你的其他信息:种族、就业史、喜欢读的杂志、破产记录、婚姻史、购房记录、求学记录、阅读习惯等等。
大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合。
A:电子邮件B:直邮C:电话营销D:数据库营销
Google文件系统(GoogleFileSystem,GFS)是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。
KB-MB-GB-TB-PB-EB-ZB-YB-NB-DB
大数据技术要解决的问题
(Clustergram)
没有强大的计算能力
文档评论(0)