大数据研究现状.pdfVIP

下载本文档

78
0
约9.39千字
约 7页
2021-10-27 发布于山西
举报
版权申诉

大数据研究现状.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

选题理由：移动互联网和云计算都是我们可以触及到的东西，而大数据是一个抽象的概念，现在媒体总在说大数据时代的到来，那大数据到底是什么，为什么它如此受关注，为何它对人们的生活和生产具有如此深刻的影响，借这个机会我也想深入地了解了一下，并在此与大家分享有关大数据的知识。最早提出大数据时代已经到来的机构是全球知名咨询公司麦肯锡。麦肯锡在研究报告中指出，数据已经渗透到每一个行业和业务职能领域，逐渐成为重要的生产因素。而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。何为大数据大数据是指需要通过快速获取、处理、分析以从中提取价值的海量、多样化的交易数据、交互数据与传感数据。所涉及的数据量规模巨大到无法通过人工在合理时间内完成信息的采集、处理、管理，并将其整理成为人类所能解读的信息。当今世界经济中，企业为了发现新的盈利长机会，更加依赖来自消费者的喜好和见解。在发现和挖掘这些喜好和见解的过程中，产生数量巨大、结构复杂、类型众多的数据，这些数据通过集成共享，交叉复用，成为有价值的经济信息资源，形成一种智力资源和知识服务能力。大数据有多大 how big is big data 大，即海量，巨型。领域内的大多数专业人士认为TB （太字节，百万兆）或PB级是目前大数据的基准。但也有业内人士认为无法为大数据定义一个具体的数量级，因为当今科技迅猛发展，今天的“大” 可能是明天的“正常”数量。也就是说大数据是附着在人力和技术基础设施无法跟上公司的数据需求步伐的情况下的主观标签。各大公司的数据情况 Google 公司通过大规模集群和MapReduce 软件，每个月处理的数据量超过400PB 。百度的数据量：数百PB，每天大约要处理几十PB 数据，大多要实时处理，如微博、团购、秒杀。 Facebook：注册用户超过8.5 亿，每月上传10 亿照片，每天生成300TB 日志数据淘宝网：有3.7 亿会员，在线商品8.8 亿，每天交易数千万，产生约20TB 数据。 Yahoo!的数据量：Hadoop 云计算平台有34 个集群，超过3 万台机器，总存储容量超过100PB。工业革命以后，以文字为载体的信息量大约每十年翻一番；1970 年以后，信息量大约每三年就翻一番；如今，全球信息总量每两年就可以翻一番。2011 年全球被创建和被复制的数据总量为1.8ZB （1ZB=1021Byte）其中75%来自于个人。互联网数据中心（IDC）认为，到下一个十年（2020 年），全球所有IT 部门拥有服务器的总量将会比现在多出10 倍，所管理的数据将会比现在多出50 倍。根据麦肯锡全球研究院（MGI）预测，到2020 年，全球数据使用量预计将暴增44 倍，达到35ZB 数据如此膨胀，大数据的处理及应用成为企业经营及价值创造上非常重要的课题。大数据特点：3V Volume:数据量大：目前一般认为PB 级以上数据看成是大数据； Variety:种类多：包括文档、视频、图片、音频、数据库数据等； Velocity:速度快：数据生产速度很快，要求数据处理和I/O 速度很快； Veracity:真实性:数据是完整的和可信任，并能自信地用它来做出关键的决定的能力的组织。大数据处理流程数据采集：数据抽取（ETL）工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集合中，成为联机分析处理、数据挖掘的基础。数据存取：关系数据库、NoSQL、SQL 等。基础架构：云存储、分布式文件存储等。数据处理：自然语言处理(NLP，Natural Language Processing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机理解自然语言，所以自然语言处理又叫做自然语言理解(NLU，Natural Language Understanding)，也称为计算语言学(Computational Linguistics 。一方面它是语言信息处理的一个分支，另一方面它是人工智能 (AI, Artificial Intelligence)的核心课题之一。统计分析：假设检验、显著性检验、差异分析、相关分析方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析等。数据挖掘：分类、估计、预测、相关性分组或关联规则、聚类（Clustering）、描述和可视化、复杂数据类型挖