大最功数据综述.docVIP

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据综述 大数据:下一个创新、竞争和生产力的前言 麦肯锡认为,“大数据”是指大小超出了典型数据库软件的采集、存储、管理和分析等能力的数据集。该定义有两方面内涵:一是符合大数据标准的数据集大小是变化的,会随着时间推移、技术进步而增长;二是不同部门符合大数据标准的数据集大小会存在差别。目前,大数据的一般范围是从几个TB到数个PB(数千TB)。 大数据可以发挥重要的经济作用,不但有利于私人商业活动,也有利于国民经济和公民。数据可以为世界经济创造重要价值,提高企业和公共部门的生产率和竞争力,并为消费者创造大量的经济剩余。 麦肯锡认为,随着人们存储、汇聚和组合数据然后利用其结果进行深入分析的能力超过以往,随着越来越尖端技术的软件与不断提高的计算能力相结合,从数据中提取洞见的能力也在显著提高。麦肯锡对大数据的具体研究成果可以归纳为5个方面。 一、全球数据现状及发展趋势 数据量呈现指数级增长 不同行业的大数据强度和内容各有不同 现有趋势将继续推动数据增长 大数据是继传统IT之后下一个提高生产率的技术前沿 大数据的关键技术 从大数据中挖掘更多的价值,需要运用灵活的、多学科的方法。目前,源于统计学、计算机科学、应用数学和经济学等领域的技术已经开发并应用于整合、处理、分析和形象化大数据。一些面向规模较小、种类较少的数据开发的技术,也被成功应用于更多元的大规模的数据集。依靠分析大数据来预测在线业务的企业已经并持续自主开发相关技术和工具。随着大数据的不断发展,新的方法和工具不断被开发。 可用于大数据分析的关键技术 可用于大数据分析的关键技术源于统计学和计算机科学等多个领域,其中关于分析新数据集方法的研究仍在继续。需要注意的是,A/B测试、回归分析等技术也可应用于小数据集分析。 麦肯锡认为,可用于大数据分析的关键技术主要包括A/B测试、关联规则挖掘、分类、数据聚类、众包、数据融合和集成、数据挖掘、集成学习、遗传算法、机器学习、自然语言处理、神经网络、神经分析、优化、模式识别、预测模型、回归、情绪分析、信号处理、空间分析、统计、监督式学习、无监督式学习、模拟、时间序列分析、时间序列预测模型、可视化技术等。P7有详细定义。 数据融合和集成:集成和分析多个来源数据的技术,比分析单一来源数据更能获得高效、可能更精确的结果。例如:从网络采集的数据经过整合对复杂的分发系统的表现,比如炼油。 数据挖掘:结合数据库管理的统计和机器学习方法从大数据提取模式的技术。包括关联规则学习、聚类分析、分类和回归。 集成学习:通过多个预测模型(均通过使用统计数据或机器学习开发),以取得比任何成分模型更好的预测效果。 机器学习:有关设计和开发算法的计算机科学(曾被称为“人工智能”),允许电脑基于经验数据进化。 自然语言处理:使用计算机算法来分析自然语言的一组技术。 模式识别:依照一种特定的算法给某种产值(或标签)分配给定的输入值(或实例)的及其学习技术。 预测模型:通过建立或选择一个数学模型得出最好预测结果的模型。 回归:确定当一个或多个自变量变化时因变量变化的程度的统计技术。 空间分析:源于分析拓扑、几何、地理数据的统计技术。 监督式学习:从一组训练数据集推断一个函数或关系的机器学习技术。 无监督式学习:用于找到未标记数据中的隐形结构的机器学习技术。 模拟:为复杂系统的行为建模,常用于预测和情境规划。 时间序列分析:组源于统计数据和信号处理的技术,从一组连续的时间值代表的数据点提取有用的信息。 时间序列预测模型:利用过去相同或其他系列的时间序列值来预测未来的模型。 专用于处理大数据的关键技术 麦肯锡认为,可专门用于整合、处理、管理和分析大数据的关键技术主要包括Big Table、商业智能、云计算、Cassandra、数据仓库、数据集市、分布式系统、Dynamo、GFS、Hadoop、HBase、MapReduce、Mashup、元数据、非关系型数据库、关系型数据库、R语言、结构化数据、非结构化数据、SQL、流处理、可视化技术等。 可视化技术 麦肯锡认为,可视化技术是大数据应用的重点之一,目前主要包括标签云、Clustergram、历史流、空间信息流等技术和应用。 大数据应用于各行业的关键发现 大数据的有效利用可以创造巨大的潜在价值。许多行业和承担业务职能的组织可以利用大数据提高人力、物力资源的分配和协调能力,减少浪费,增加透明度,并促进新想法和新见解的产生。 大数据可以通过多种方式创造价值: 创建透明度 仅仅让利益相关方能够更加容易地及时获取信息,就可以创造巨大价值。例如,在公共部门,让原本相互分离的部门之间更加容易地获取相关数据,就可大大降低搜索和处理时间。在制造业,整合来自研发、工程和制造部门的数据以便实现并行工程,可以显著缩短产品上市时间并提高质量。 通过试验来发现需求、暴

文档评论(0)

wofu + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档