- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1. 大数据时代的思维变革 1. 大数据时代的思维变革——更杂 “更杂”——不是精确性,而是混杂性 执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是有框架且能适用于传统数据库的。如果不能接受混乱,剩下95%的非框架数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户 允许不精确 大数据的简单算法比小数据的复杂算法更有效 纷繁的数据越多越好 混杂性,不是竭力避免,而是标准途径 新的数据库设计的诞生 允许不精确 对“小数据”而言,最基本、最重要的要求是减少错误,保证质量。 允许不精确 容错标准的放松能获取更多数据 大量数据创造更好的结果 混乱 错误的数据 格式的不一致 “大数据”通常用概率说话,而不是板着“确凿无疑”的面孔。 计算机的速度 摩尔定律 每块芯片上晶体管的数量每两年就会翻一番。 驱动各类系统的算法 在很多领域算法带来的进步胜于芯片进步 大数据 2000年,微软研究者,改进word语法检查的方法,数据的增多提高了算法的表现。 发展算法还是丰富语料库? 大数据的简单算法 小数据的复杂算法 无所不包的google翻译系统 2006年 Google 上万亿的语料库 翻译 2012涵盖了60多种语言 14种语音输入 数据量 500万 10亿 简单算法 75 95 较优算法 86 94 纷繁的数据越多越好 大数据时代要求我们重新审视精确性的优劣。 英国石油公司(BP)切里波因特(Cherry Point)炼油厂里,无线感应器遍布于整个工厂,形成无形的网络,能够产生大量实时数据。 酷热的恶劣环境和电气设备的存在有时会对感应器读数有所影响,形成错误的数据。 数据生成的数量之多可以弥补这些小错误。 随时监测管道的承压使得BP能够了解到,有些种类的原油比其他种类更具有腐蚀性。以前,这都是无法发现也无法防止的。 纷繁的数据越多越好 错误性并不是大数据本身固有的。它只是我们用来测量、记录和交流数据的工具的一个缺陷。如果说哪天技术变得完美无缺了,不精确的问题也就不复存在了。 实例:麻省理工与通货紧缩预测软件 美国劳工统计局: 90个城市 80000价格信息 两亿五千万美金 MIT 每天50万种商品的价格信息收集 混杂性,不是竭力避免,而是标准途径 在许多技术和社会领域,我们更倾向于纷繁杂乱。 分类法和索引法 标签 “欣赏不精确而不会假装精确” 据估计,只有5%的数字数据是结构化的妾适用于传统数据。 数据库设计 传统数据库引擎要求数据高度精确和准确排列。 新的数据库设计的诞生 大数据与传统数据库的区别 传统数据库的设计要求在不同的时间提供一致的结果。 大数据是在传统数据库学科的分支——数据仓库与数据挖掘的基础上进一步发展起来的。但有两点比较主要的不同: 1. 结构化程度 传统数据库保存的是结构化或者半结构化的数据,以二维表或者标准XML文件的方式存储数据,由于结构清晰,处理相对容易; 大数据面向的是一切计算机可以存储的数据格式,包括互联网上的各种网页、图片、音频、视频,包括办公文档、报表,包括人们在搜索引擎中输入的关键词、在社交网络中的留言、喜好,也包括各种传感器自动收集的监控结果等等,显然不同的格式处理起来更加困难。 实例:Hadoop与VISA的13分钟 Hadoop? 是与谷歌的Mapreduce系统相对应的开源式分布系统的基础架构。 把大数据分成小模块然后分配给其他机器进行分析。 假定数据无法移动,本地处理 结果不精确 VISA使用Hadoop,能够将处理两年内730亿单交易所需的时间,从一个月缩短为13分钟。 大数据与传统数据库的区别 异常数据的处理 传统数据库通常把异常数据先剔除,应用在需要高精确度的领域,如银行对每个账户的管理; 大数据则允许异常数据存在,更多应用在预测方面,找出大量数据中隐藏的关联关系,少量异常数据不会对总体结果产生影响。 实例 ZestFinance,一个由谷歌前任首席信息官道格拉斯·梅里尔创立的公司,用自己的经验再次验证了“宽容错误会给我们带来更多价值” 。 这家公司帮助决策者判断是否应该向某些拥有不良信用记录的人提供小额短期贷款。 2012年,让ZestFinance引以为豪的就是,它的贷款拖欠率比行业平均水平要低三分之一左右。唯一的得胜之道还是拥抱混杂。 据估计,只有5%的数字数据是结构化的且能适用于传统数据库。如果不接受混乱,剩下95%的非结构化数据都无法被利用。 第一个折中是,我们默认自己不能使用更多的数据,所以我们就不会去使用更多的数据。但是,数据量的限制正在逐渐消失,而且通过无限接近“样本=总体”的方式来处理数据,我们会获得极大的好处。 第二个折中出现在数据的质量上。在小数据时代,追求精确度是合理
您可能关注的文档
- 自尊自爱成功的基石.ppt
- 3_学习对象分析.ppt
- 3_2建筑施工技术.ppt
- 自己的化是让被人看的反思.doc
- 3hp水冷答辩过后最终修订版.docx
- 3D二维图形的放样方法技巧公开课.ppt
- 3_栈与队列.ppt
- 3_XRD_分析方法-西南交通大学.ppt
- 3、excel数据处理基础部分考试知识点整理.doc
- 3—C死锁.ppt
- 《GB/T 32879-2025电动汽车更换用电池箱连接器》.pdf
- 中国国家标准 GB/T 21649.2-2025粒度分析 图像分析法 第2部分: 动态图像分析法.pdf
- 中国国家标准 GB/T 20899.9-2025金矿石化学分析方法 第9部分:碳量的测定.pdf
- 《GB/T 20899.9-2025金矿石化学分析方法 第9部分:碳量的测定》.pdf
- GB/T 20899.9-2025金矿石化学分析方法 第9部分:碳量的测定.pdf
- 《GB/T 33820-2025金属材料 延性试验 多孔状和蜂窝状金属高速压缩试验方法》.pdf
- GB/T 33820-2025金属材料 延性试验 多孔状和蜂窝状金属高速压缩试验方法.pdf
- 中国国家标准 GB/T 33820-2025金属材料 延性试验 多孔状和蜂窝状金属高速压缩试验方法.pdf
- GB/T 45910-2025信息技术 生物特征识别模板保护方案的性能测试.pdf
- 《GB/T 45910-2025信息技术 生物特征识别模板保护方案的性能测试》.pdf
最近下载
- 动量定理精选习题+答案.pdf VIP
- 2025江苏盐城市黄海金融控股集团有限公司博士后创新实践基地研究人员招聘2人笔试备考题库及答案解析.docx VIP
- 2025江苏盐城市黄海金融控股集团有限公司博士后创新实践基地研究人员招聘2人笔试参考题库附答案解析.docx VIP
- 2025江苏盐城市黄海金融控股集团有限公司博士后创新实践基地研究人员招聘2人笔试模拟试题及答案解析.docx VIP
- 2025江苏盐城市黄海金融控股集团有限公司博士后创新实践基地研究人员招聘2人考试备考试题及答案解析.docx VIP
- 教师资格证面试结构化面试真题及解析(幼儿园).pdf VIP
- KYN61-40.5型开关柜技术规范书.docx VIP
- 夜市承包经营协议书.docx VIP
- 2025江苏盐城市黄海金融控股集团有限公司博士后创新实践基地研究人员招聘2人考试备考题库及答案解析.docx VIP
- 2025届广东省深圳实验学校高中部高三第二次联考化学试卷含解析.doc VIP
文档评论(0)