大数据平台分一析报告.docVIP

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
密级:内部公开 环境数据中心 大数据平台分析 Big data platform analysis 聚光科技(杭州)股份有限公司 目 录 1. 大数据背景 1 1.1. 什么是大数据 1 1.2. 发展现状 1 1.3. 大数据的应用 2 2. 大数据平台介绍 4 2.1. 定位 4 2.1.1. 产品概述 4 2.2. 功能 4 2.3. 设计 4 2.4. 技术 4 2.5. 总结 4 3. 环境数据中心 5 3.1. 背景定位 5 3.2. 功能 5 3.2.1. 5 3.2.2. 5 3.3. 设计 5 3.4. 技术 5 4. 总结 6 大数据背景 什么是大数据 大数据最早在上世纪90年代被提出,是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。 现在,业界普遍认同所谓“大数据”具有明显的“3V特征”:量级(Volume),速度(Velocity)和多样性(Variety)。大数据普遍具有量级大,要求处理速度快,数据本身具有丰富的多样性。在甲骨文公司和中国移动研究院的相关研究文档里,都追加了第四个V——Value,价值;而IBM在其相关文档中给出的第四个“V”则是真实性(Veracity)。 大数据的价值:在海量的规则或不规则数据之中,用新的数据处理手段,以很快的速度计算或分析出潜在规律性、根本性的判断、趋势或预见。 发展现状 随着移动互联网的带宽的增加和智能设备销售量的上升,互联网业迎来了“云计算”和“大数据”。世界经济论坛一份有关大数据的研究报告称,每天全球几十亿人使用计算机、GPS设备、电话和医疗设备,产生海量的数据信息。这些用户大部分来自发展中国家,他们的需求和习惯尚未被真正理解,如果能够借助大数据相关技术分析和挖掘数据背后的信息,将有助于认识需求、提供预测和防范危机。 大数据的真正意义并不在于大带宽和大存储,而在于对容量大且种类繁多的数据进行分析并从中萃取大价值。采用大数据处理方法,生物制药、新材料研制生产的流程会发生革命性的变化,可以通过数据处理能力极高的计算机并行处理,同时进行大批量的仿真比较和筛选,大大提高科研和生产效率。数据已成为矿物和化学元素一样的原始材料,未来可能形成“数据探矿”、“数据化学”等新学科和新工艺模式。大数据处理的兴起也将改变云计算的发展方向,云计算正在进入以AaaS(分析即服务)为主要标志的Cloud 2.0时代。 大数据的应用 大数据的开发与应用有着三个特点: 1、数据样本,不再是抽样,而就是数据的总体。分析数据是把所有搜集到的数据包括在内。 2、数据不必百分之百地准确,不必剔除特例,而是从“海量”的数据中总结出绝大部分人的共同特性。用“绝大多数的特性”代表“总体的特性”。 3、不再注重数据之间的“因果性”,而只注重于它们之间的“相关性”。 在《大数据时代》中举了很多实例讲解以上的观点。 1、语言的翻译: 传统翻译软件是设定了很多的语法规则,用这些僵化的规则拆解每个句子,然后再逐字翻译生成不同语文的语句。但这往往使翻译出来的语句非常生硬拗口,甚至错误率极高。业界还盛传一个有关微软公司“机器翻译部门”的一个笑话:部门每有一个语言专家辞职,翻译质量就会提高一些。 谷歌的翻译软件却不是这么做,他们翻译团队的成员大多不但不是语文学家,甚至连翻译成的那种语言都一窍不通。他们都是一些统计学家,从大量的已存的翻译文章中对比,寻求规律,然后产生翻译的文字。事实证明虽然网上搜集来的翻译文章有不少是错误的,是低质量的,但由于数据量极大,这些错误自然就被忽略了,这种方法的确大大提高了翻译的质量和准确性。也就是说“不百分之百”精确的大数据用简单算法比精确的小数据用复杂算法要有效地多! 2、流感的预测 以前卫生单位发布流感成灾的信息,往往都是从各大医院和卫生所搜集来的数据,这个方法的最大缺点是“信息是滞后的”,但是“灾”已成事实了,卫生单位才警告社会,这时已经有很多人被感染。 又是谷歌提出了不同的预测办法。他们是以有多少人搜索“咳嗽怎么办?”或“发烧怎么办?”来警示流感可能发生了。但除了注意到搜索这些词语的频率大幅增高外,还可以锁定是哪个区域的人开始大量搜索这类问题的答案。于是谷歌就能提早告诉大众有流感开始盛行,而且传染区是向哪个方向迁移。这个项目使得卫生单位及早研制预防疫苗,及早控制疫情的扩散,大幅降低了流感的传播。 3、飞机票价高低和多早预购的关系 也许大家会直觉地认为越早买机票就越可以买到较便宜的机票。一家叫Farecast公司的创始人从他的亲身经验启发了一个新的服务。他发现坐他旁边的人比他晚好几天购买机票却比他的购买价格还低。于是他搜集了所有航空公司的票价与提前订购时间的数据关系,并建立了数学模型。现在我们任何人可以上到他的网站:,输

文档评论(0)

wofu + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档