- 1、本文档共323页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据导论正版可修稿PPT322页完整版课件;第1章 绪论;提纲;1.1 什么是大数据;1980年,美国著名未来学家阿尔文·托夫勒的《第三次浪潮》一书中出现“大数据”(Big Data)一词,将大数据称为“第三次浪潮的华彩乐章”。;1.1.2 大数据的特点;一般而言,大家比较认可关于大数据的4V说法。大数据的4个“V”,或者说是大数据的四个特点,包含四个层面:
第一,数据体量巨大。从TB级别,跃升到PB级别;
第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。
第???,价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume,Variety,Value,Velocity。
; 舍恩伯格的《大数据时代》受到了广泛的赞誉,他本人也因此书被视为大数据领域中的领军人物。在舍恩伯格看来,大数据一共具有三个特征:
(1)全样而非抽样;但有了云计算和数据仓库以后,获取足够大的样本数据乃至全体数据,就变得非常容易了。
(2)效率而非精确;但在样本=总体的大数据时代,“快速获得一个大概的轮廓和发展脉络,就要比严格的精确性要重要得多”。
(3)相关而非因果。舍恩伯格认为,大数据时代只需要知道是什么,而无需知道为什么,就像亚马逊推荐算法一样,知道喜欢A的人很可能喜欢B但却不知道其中的原因。;“大数据”的奥秘不在于它的“大”,而在于“新数据与传统知识之间的”矛盾日益突出。大数据并不等同于“小数据的集合”。从小数据到大数据中出现了“涌现现象”,“涌现”才是大数据的本质特征。
所谓涌现(Emergence)是指系统大于元素之和,或者说系统在跨越层次时,出现了新的质;价值涌现。大数据中的某个成员小数据可能没有什么价值,但由这些小数据组成的大数据会很用价值。
隐私涌现。大数据中的成员小数据可能不涉及隐私(非敏感数据),但由这些小数据组成的大数据可能严重威胁个人隐私(敏感数据)。
质量涌现。大数据中的成员小数据可能有质量问题(不可信的数据),如缺少、冗余、垃圾数据的存在,但不影响大数据的质量(可信的数据)。
安全涌现。大数据中的成员小数据可能不涉及安全问题(不带密级的数据),但如果将这些小数据放在一起变成大数据之后,很可能影响到机构信息安全、社会稳定甚至国家安全(带密级的数据)。
;1.2 相关术语;DIKW模型(Data to Information to Knowledge to Wisdom Model)是一个可以帮助我们理解数据(Data)、信息(Information)、知识(Knowledge)和智慧(Wisdom)之间关系的模型,它向我们展现了数据是如何一步步转化为信息、知识、乃至智慧的。
;1.2.2 结构化与非结构化数据;2)非结构化数据
相对于结构化数据,一般将不方便用二维表结构来表现的数据即称为非结构化数据,具体可细分为:
半结构化数据
介于完全结构化数据和完全无结构化数据之间的数据,半结构化数据格式较规范,一般是纯文本数据,可以通过某种方式解析得到每项数据。最常见的是日志数据、XML、JSON等格式数据。;无结构化数据
指非纯文本类数据,没有标准格式,无法直接解析出相应的值。常见的有富文本格式文档(Rich Text Format,简称RTF)、多媒体(图像、声音、视频等)。
富文本不同于普通文本之处在于其文本包含多种格式如颜色、字体大小等,富文本通常由富文本编辑产生,;1.3 大数据的应用、挑战与变革;大数据的应用;2. 大数据在农业中的应用
农业大数据是融合了农业地域性、季节性、多样性、周期性等自身特征后产生的来源广泛、类型多样、结构复杂、具有潜在价值,并难以应用通常方法处理和分析的数据集合。它保留了大数据自身具有的规模巨大、类型多样、价值密度低、处理速度快、精确度高和复杂度高等基本特征外,还使农业内部的信息流得到了延展和深化。根据农业的产业链条划分,目前农业大数据主要集中在农业环境与资源、农业生产、农业市场和农业管理等领域。
;3. 大数据在服务业中的应用
1)大数据缓解交通拥堵
2)大数据守护轨道交通安全
3)大数据优化物流资源配置
;3. 大数据在服务业中的应用
1)大数据缓解交通拥堵
2)大数据守护轨道交通安全
3)大数据优化物流资源配置
4.大数据在体育界的应用
未来,竞技体育中的体征数据(心率、血压、血氧)、环境数据(天气、场馆地面、球门、球框)、装备数据(场上运动员的装备及能力),乃至运动员的心态数据都将逐步涌现出来。这些数据将协助制定更有针
您可能关注的文档
最近下载
- 2025年生活会对党委书记领导班子及班子成员的批评意见及建议(写稿参考素材).docx VIP
- 2025年生活会对党委书记领导班子批评意见及建议、“四个带头”方面互提意见、存在问题、一对一谈心谈话记录(写稿参考素材)6份.docx VIP
- Danfoss丹佛斯ECL Comfort 310, A333 operating guide 操作指南.pdf
- 五年级班主任工作计划.docx VIP
- 第一课 立足时代 志存高远(最新版).pptx
- 一种农业用生物制剂混合装置.pdf VIP
- 二零二四年度农业用生物制剂配方专利转让合同.docx VIP
- 人教版小学五年级下册英语教学设计.pdf VIP
- 重症肺炎护理查房.pptx VIP
- 《教师的情绪管理》课件.pptx VIP
文档评论(0)