基于Hadoop构建数据分析系统-资源 大数据的特点 大数据的特点.docxVIP

基于Hadoop构建数据分析系统-资源 大数据的特点 大数据的特点.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据的特点 PAGE 2 [文档标题 大数据的特点 本次课程介绍大数据的特点。 一、大数据的特点 大数据是一个仁者见仁,智者见智的宽泛概念。关于“什么是大数据”这个问题,大家比较认可关于大数据的“4V+1O”说法。所谓“4V+1O”,指的是大数据的5个特点,包含5个层面:Volume(数据量大),Variety(数据类型繁多),Velocity(处理速度快), Value(价值密度低),Online(数据是在线的)。 (一)Volume(数据量大) 非结构化数据的超大规模增长导致数据集合的规模不断扩大,数据单位已经从GB级到TB级再到PB级,甚至开始以EB和ZB来计数。 (1) 根据IDC做出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律)。 (2) 人类在最近两年产生的数据量相当于之前产生的全部数据量 (3) 预计到2020年,全球总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍。 (二)Variety(数据类型繁多) 大数据的数据类型丰富,包括结构化数据和非结构化数据,其中,前者占10%左右,主要是指存储在关系数据库中的数据;后者占90%左右,种类繁多,主要包括邮件、音频、视频、微信、微博、位置信息、链接信息、手机呼叫信息、网络日志等。 (三)Velocity(处理速度快) 处理速度快,时效性要求高。需要实时分析而非批量式分析,数据的输入、处理和分析连贯性地处理,这是大数据区分于传统数据挖掘最显著的特征。 (1) 从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少。 (2) 1秒定律:这一点也是和传统的数据挖掘技术有着本质的不同。 (四)Value(价值密度低) 大数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,存在大量不相关信息。因此需要对未来趋势与模式作可预测分析,利用机器学习、人工智能等进行深度复杂分析。而如何通过强大的机器算法更迅速地完成数据的价值提炼,是大数据时代亟待解决的难题。虽然单位数据的价值密度在不断降低,但是数据的整体价值在提高。 大数据虽然看起来很美,但是价值密度却远远低于传统关系数据库中已有的那些数据。在大数据时代,很多有价值的信息都是分散在海量数据中的。 (1) 以公安部门视频追踪为例,连续不间断监控过程 中,可能有用的数据仅仅只有一两秒,但是具有很高的价值。 (2) 构建大数据平台,投入大,产出可能会比投入低许多。 (五)Online(数据是在线的) 数据是永远在线的,是随时能调用和计算的,这是大数据区别于传统数据最大的特征。现在我们所谈到的大数据不仅仅是大,更重要的是数据变的在线了,这是互联网高速发展背景下的特点。比如,对于打车工具,客户的数据和出租司机数据都是实时在线的,这样的数据才有意义。如果是放在磁盘中而且是离线的,这些数据远远不如在线的商业价值大。 关于大数据特征方面,特别要强调的一点是数据是在线的,因为很多人认为数据量大就是大数据,往往忽略了大数据的在线特性。数据只有在线,即数据在与产品用户或者客户产生连接的时候才有意义。如某用户在使用某互联网应用时,其行为及时的传给数据使用方,数据使用方通过某种有效加工后(通过数据分析或者数据挖掘进行加工),进行该应用的推送内容的优化,把用户最想看到的内容推送给用户,也提升了用户的使用体验。

您可能关注的文档

文档评论(0)

WanDocx + 关注
实名认证
文档贡献者

大部分文档都有全套资料,如需打包优惠下载,请留言联系。 所有资料均来源于互联网公开下载资源,如有侵权,请联系管理员及时删除。

1亿VIP精品文档

相关文档