大数据处理概述.docxVIP

  • 14
  • 0
  • 约1.78千字
  • 约 3页
  • 2022-09-07 发布于湖北
  • 举报
大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。[6]大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。

---------宋停云与您分享---------- ---------宋停云与您分享---------- 、 、、 大数据处理 大数据处理概述 、 0 ---------宋停云与您分享---------- ---------宋停云与您分享---------- 大数据处理 大数据处理的流程主要包括以下四个环节:采集、导入(预处理)、统计(分析)、挖掘,下面针对这四环节进行简单阐述。 大数据处理之一:采集 大数据的采集是指利用多个数据库来接收发自客户端(Web、App 或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库 MySQL 和 Oracle 等来存储每一笔事务数据,除此之外,Redis 和 MongoDB 这样的 NoSQL 数据库也常用于数据的采集。 在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。 大数据处理之二:导入/预处理 虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导

文档评论(0)

1亿VIP精品文档

相关文档