- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据技术初析
大数据技术初析
摘 要:大数据是继物联网、云计算技术后世界又一热议的信息技术,这种密集型数据爆炸现象的出现,标志着“大数据”时代的到来。文章介绍了大数据的概念,分析阐述了大数据相关技术。
关键词:大数据 数据处理 相关技术
中图分类号:TP334 文献标识码:A 文章编号:1674-098X(2014)02(a)-0048-01
“大数据”是从英语“Big Data”一词翻译而来的,是当前IT界热议和追逐的对象,是继物联网、云计算技术后世界又一热议的信息技术,发展迅速。截至2011年年底,全球互联网总数据存储量已达100亿TB以上,并且以59%以上的年增长率递增。麦肯锡公司在2011年的报告(Bigdata:the Next FrontierforInnovation)中,对这种密集型数据爆炸的现象称为“大数据”时代的到来。大数据领域出现的许多新技术,是大数据采集、存储、处理和呈现的有力武器。
1 大数据概念
大数据概念的前身是海量数据,但两者有很大的区别。海量数据主要强调了数据量的规模,对其特性并没有特别关注。而大数据对传播速率、体积、特征等数据的各种特性进行了描述。目前对大数据最广泛的定义是:大数据是无法在一定时间内用通常的软件工具进行收集、分析、管理的大量数据的集合。大数据的特点一般用“4V”概括,即:Volume:数据量大,目前大数据的最小单位一般被认为是10~20TB的量级;Variety:数据类型多,包括了结构化、非结构化和半结构化数据;value:数据的价值密度很低;velocity:数据产生和处理的速度非常快。
2 大数据相关技术
2.1 大数据处理通用技术架构
大数据的基本处理流程与传统数据处理流程的主要区别在于:由于大数据要处理大量、非结构化的数据,所以在各个处理环节中都可以采用并行处理。目前,MapReduce等分布式处理方式已经成为大数据处理各环节的通用处理方法。
MapReduce分布式方法最先由谷歌设计并实现,包括分布式文件系统GFS、MapReduce分布式编程环境以及分布式大规模数据库管理系统Bigrable。MapReduce是一套软件框架,包括Map和Reduce两个阶段,可以进行海量数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。MapReduce的工作原理是先分后合的数据处理方式。Map即“分解”,把海量数据分割成若干部分,分给多台处理器并行处理;Reduce即“合并”,把各台处理器处理后的结果进行汇总操作,以得到最终结果。用户只需要提供自己的Map函数以及Reduce函数就可以在集群上进行大规模的分布式数据处理。MapReduce将处理任务分配到不同的处理节点,因此具有更强的并行处理能力。
2.2 大数据采集
大数据的采集是指利用数据库等方式接收发自客户端(Web、App或者传感器形式等)的数据。大数据采集的主要特点是并发访问量大,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站的并发访问量在峰值时达到上百万,这时传统的数据采集工具很容易失效。大数据采集方法主要包括:系统日志采集、网络数据采集、数据库采集、其他数据采集等四种。
2.3 大数据分享
目前数据分享主要通过数据集市和开放数据平台等方法实现。开放数据平台可以提供涵盖本地服务、娱乐、教育和医疗等方方面面的数据集合,用户不但可以通过API访问,还可以很方便地通过SDK集成到移动应用当中。在线数据集市除了提供下载数据的功能外,还为用户提供上传和交流数据的场所。数据平台和数据集市不但吸引有数据需求用户,还能够吸引很多数据开发者在平台上进行开发。
2.4 大数据预处理
数据预处理就是对采集的数据进行清洗、填补、平滑、合并、规格化以及检查一致性等处理,并对数据的多种属性进行初步组织,从而为数据的存储、分析和挖掘做好准备。通常数据预处理包含三个部分:数据清理、数据集成和变换和数据规约。
2.5 大数据存储及管理
大数据需要行之有效的存储和管理,否则人们不能处理和利用数据,更不能从数据中得到有用的信息。目前,大数据的存储和管理技术主要分三类:分布式文件系统、数据仓库和非关系型数据库(NoSOL)。
2.6 大数据分析及挖掘
大数据的分析和挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、数据挖掘、统计学、数据库等技术,高度自动化地分析大数据,做出归纳性的推理,从中挖掘出潜在的模式,从而在大数据中提取有用信息。大数据的分析和挖掘与传统的数据挖掘比较有两个特点:一是通常采用并行处理的方式;二是大数据分析对实时处理的要求很高,流处理等实时处理技术受到人们欢迎。常用的方法有:机器学习、数
您可能关注的文档
- 大学生考试心态剖析.doc
- 大学生职业决策中家庭因素剖析及对策.doc
- 大学生考试态度初析.doc
- 大学生职业化之路初析.doc
- 大学生考试作弊心理剖析及对策.doc
- 大学生职业意识训练初析.doc
- 大学生职业幸福感教育剖析.doc
- 大学生考试作弊成因剖析及对策初探.doc
- 大学生考试作弊行为剖析及预防对策.doc
- 大学生职业指导工作实践剖析.doc
- 2025至2030中国移动治疗台行业发展研究与产业战略规划分析评估报告.docx
- 2025至2030链激酶行业细分市场及应用领域与趋势展望研究报告.docx
- 2025至2030爆炸物探测扫描仪行业市场占有率及有效策略与实施路径评估报告.docx
- 2025至2030四川省智能制造行业细分市场及应用领域与趋势展望研究报告.docx
- 2026届高三二轮复习试题政治大单元突破练1生产资料所有制与分配制度含解析.docx
- 2026届高三二轮复习试题政治大单元突破练16哲学基本思想与辩证唯物论含解析.docx
- 2026届高三二轮复习试题政治大单元突破练2社会主义市场经济体制含解析.docx
- 浙江省衢州市五校联盟2025-2026学年高二上学期期中联考技术试题-高中信息技术含解析.docx
- 浙江省金丽衢十二校2026届高三上学期11月联考政治试题含解析.docx
- 2026届高三二轮复习试题政治大单元突破练7领导力量:中国共产党的领导含解析.docx
最近下载
- 产后出血预防及处理指南(2023版)PPT课件.pptx VIP
- 《建筑与市政工程施工质量控制通用规范》(GB-55032-2022).docx VIP
- 骨科质量与安全管理指标.pdf VIP
- 国开电大学习网《农业推广学》形成性考核任务1-3答案.pdf VIP
- 气囊测压表获奖课件.pptx VIP
- 《图形创意》课件之五图形创意的语境.ppt VIP
- 故障分析与故障排除.pdf VIP
- 高中地理湘教版必修 第二册(2019)_农业区位因素 公开课教案课件教学设计资料.pptx VIP
- 大学计算机基础练习题库+答案.docx VIP
- 茶树育种学知到智慧树期末考试答案题库2025年信阳农林学院.docx VIP
原创力文档


文档评论(0)