- 68
- 0
- 约1.88万字
- 约 36页
- 2017-06-12 发布于贵州
- 举报
大数据时代免费ppt模板
大数据时代免费ppt模板
篇一:大数据时代笔记
红色:重点语句
蓝色:书籍名称
1.2008年9月4日《自然》推出的名为大数据的专刊
2.大数据并非一个确切的概念
3.大数据的核心原则是预测
它是把数学算法运用到海量的数据上来预测事情发展的可能性
这些预测系统之所以能够成功,关键在于它们是建立在海量数据的基础之上的。
4.大数据的精髓(三个转变)
(1)处理所有数据,而不再依赖于随机采样
(2)不再热衷于追求精确度
(3)不再热衷于寻找因果关系
5.全数据模式:样本=总体
eg:(转载于:www.XltkWJ.Com 小 龙文档 网:大数据时代免费ppt模板)谷歌流感趋势预测并不是依赖于对随机样本的分析,而是分析了整个美国几十亿条互联网检索记录,分析整个数据库,而不是对一个小样本进行分析,能够提高微观层面分析的准确性,甚至能够推测出某个特定城市的流感状况,而不只是一个州或是整个国家的情况。
6.eg:信用卡诈骗是通过观察异常情况来识别的,只有掌握了所有的数据才能做到这一点,在这个情况下,异常值是最有用的信息,你可以把它与正常交易情况进行对比。
7.大数据是指不用随机分析这样的捷径,而采用所有数据的方法。
8.社会科学是被“样本=总体”撼动得最厉害的学科,随着大数据分析取代了样本分析,社会科学不再单纯依赖于分析实证数据。
9.《爆发》艾伯特-拉斯洛·巴拉巴西
10.允许不精确:对于小数据而言,最基本、最重要的要求就是减少错误、保证质量。因为收集的信息量比较少,所以我们必须确保记录下来的数据尽量精确。在采样的时候,对精确度的要求就更高更苛刻。因为收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。
11.大数据的混杂性:
混乱,简单地说就是随着数据的增加,错误率也会相应增加。
混乱还可以指格式的不一致性,因为要达到格式一致,就需要在进行数据处理之前仔细地清洗数据。
12.大数据通常用概率说话,而不是板着“确凿无疑”的面孔。
13.大数据的简单算法比小数据的复杂算法更有效。
14.纷繁的数据越多越好
保证每个数据的精确性
传统的规避错误的策略和通过测试样本是否存在潜在的系统性偏差在收集所有数据的时候行不通。
大数据不仅让我们不再期待精确性,也让我们无法实现精确性。
错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。
15.混杂性:不是竭力避免,而是标准途径。
16.新的数据库设计的诞生:非关系型数据库:它不需要预先设定记录结构,允许处理超大量五花八门的数据。因为包含结构多样性,这些数据库设计就要求更
多的处理和存储资源。
17.帕特赫德《如果你有足够多的数据,那么“足够好”真的足够好》,他认为:处理海量数据会不可避免地导致部分信息的缺失,虽然这本来就有“损耗性”的,但是能快速得到想要的结果弥补了这个缺陷。
18.Hadoop与谷歌的MapReduce:
Hadoop通过把大数据变成小模板然后分配给其他机器进行分析,它实现了对超大量数据的处理。
典型的数据分析需要经过“萃取—转移和下载”这样的操作流程
而Hadoop假定了数据量的巨大使得数据完全无法移动,所以人们在本地进行数据分析。
19.亚马逊公司:根据客户个人以前的购物喜好,为其推荐具体的书籍。比如说,他们购买了什么书籍?哪些书他们只浏览却没有购买?他们浏览了多久?哪些书是他们一起购买的?解决方案:需要做到的是找到产品之间的关联性,“item-to-item协同过滤技术”。
20.关联物,预测的关键。相关关系的核心是量化两个数据值之间的数理关系,相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。相反,相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化。严格来讲,即便没有相关性,另一个数据值也可以大幅变化,只是没有趋势可循罢了。通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。
21.除了仅仅依靠相关关系,专家们还会使用一些建立在理论基础上的假想来指导自己选择适当的管理无,这些理论就是一些抽象的观点,关于事物是怎样运作的,然后收集与关联物相关的数据来进行相关关系分析,以证明这个关联物是否真的合适。
22.通过找出一个关联物并监控它,我们就能预测未来。
23.收集和分析数据的花费比出现问题带来的损失小很多。
24.预测性分析并不能解释故障可能会发生的原因,只会告诉你存在什么问题,也就是说它并不能告诉你引擎过热是因为什么,磨损的风扇皮带?没拧紧的螺帽?没有答案。
25.当收集、存储和分析数据的成本比较高的时候,应该适当地丢弃一些数据。
26.这个系统依赖的是相关关系,而不是因果关系。它告
您可能关注的文档
最近下载
- 部编版语文四年级下册 第五单元综合能力提升卷(含答案).doc VIP
- 未成年人保护法解读与宣传.pptx VIP
- 2012江苏高考《伯父墓表》详解.ppt VIP
- Metformin 盐酸二甲双胍 药品 0.5g 说明书.pdf
- 致用英语口语教程(第三版)(上)Unit9课件PPT课件.pptx VIP
- SAP工艺简介SAP工艺简介.pdf VIP
- 提高术后手术间的归整率.docx VIP
- 硬笔书法纸可直接打印的口字格米字格田字格等模板.doc VIP
- 《Spark批处理技术与应用》课件——5. Spark机器学习(MLlib).pptx VIP
- 【中考真题】2024年北京中考数学试题及答案 .pdf VIP
原创力文档

文档评论(0)