HC1209201第一章大数据概述2026.pptVIP

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长浪潮的到来,其实,大数据在科学技术领域和军事、金融、通讯等行业并不是新名词,然后其真正进入人们的视野,引起人们的关注却是因为近年来互联网和信息行业的高速发展。 随着人类科学技术的进步,信息的爆炸式增长,人类社会已步入数字化时代。我们每天都会产生和面对大量的数据,同时,我们对数据的需求量越来越大。从以上的数字我们可以看出,数据量级已发生变化,数据价值日益突显。相应的,如何更好的处理这些海量数据,已经成为一个重要的课题。 Search 检索问题 PB级文件系统搜索(包含归类查找和按条件模糊) 百亿记录数据的快速查询 Efficiency 效率问题 数据的流动性 大量冷数据的归档和节能 重删和压缩 Store 存储问题 支持Scaleout的可伸缩架构 多协议(标准接口)支撑和多租户架构 数据的可靠性和安全性 在实际应用中,数据因不同的应用场景其表现方式也有所不同,根据在不同应用中数据表现形式的不同,我们可以把数据区分成不同的类型,即数据类型。如:电子商务数据、CRM数据、即时信息、电子邮件等。随着业务应用的丰富多样,数据类型也呈现出其多样性。不同的数据类型,其数据组织的结构、属性、存储方式、分析方法、数据价值等都存在很大的差异,因此,对数据类型的认知和分析将是大数据应用的基础。 从数据结构特征来分类,主要可以分为:结构化数据、非结构化数据和半结构化数据。 结构化数据即指可以用二维表结构来逻辑表达实现的数据,简单来说就是数据库 。比如企业ERP、财务系统、医疗HIS数据库、教育一卡通、政府行政审批等。 非结构化数据,即不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。比如医疗影像系统、教育视频点播、视频监控、国土GIS、设计院、文件服务器(PDM/FTP)、媒体资源管理等。 半结构化数据,包括邮件、HTML、报表、资源库等等,典型场景如邮件系统、WEB集群、教学资源库、数据挖掘系统、档案系统等等。 在这里我们主要分析两类大数据应用场景,一类是以互联网为代表,其90%以上数据都是非结构化数据,如Google, 百度Facebook , Twitter ,新浪等,数据以非结构化为主。另一类以运营商为代表,其80%以上是结构化为主的大数据。针对这两种大数据代表形式,在业界会有不同的技术处理方式。 大数据的范畴包含结构化和非结构数据,非结构化数据的增长对大数据的促进作用相比较更大、更明显。 我们可以从理论、技术和实践3个维度解剖和理解大数据。每一个维度,都有相应的研究课题、关联技术、方法,在后续的课程学习中将逐步涉及。 大数据的特征按照业界比较认可的说法,归纳为4个“V”(海量Volume,多样Variety,价值Value,快速Velocity),或者说特点有四个层面: 第一,数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T); 第二,数据类型繁多。比如,网络日志、视频、图片、地理位置信息等等。 第三,价值密度低,商业价值高。 第四,处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。 从大数据在容量、数据多样性、处理速度和价值挖掘等四个方面所面临的挑战看,大数据技术涵盖了从数据的海量存储、处理到应用的多方面的技术,包括异构数据源融合、海量分布式文件系统、NoSQL数据库、并行计算框架、实时流数据处理以及数据挖掘、商业智能和数据可视化等。 一个典型的大数据处理系统可分为五层:数据采集、存储、处理、分析、应用及展现等,其技术参考架构如图所示。 * * 接口 NFS/CIFS/Posix接口支持非结构化数据的存取 HDFS接口兼容Hadoop分析平台 xDBC和SQL语法支持数据库访问方式 Rest接口支持对象存储 特性 大数据的海量、分布式以及其应用可感知等特点决定了1其保护方式区别于传统Raid和传统的备份 大数据的数据结构和特征的多样性决定了需要合理的分层和数据流动来保证 Capex和Opex 大数据的海量和多样使其管理维护更加困难 基础架构 全局命名空间 横向扩展 多租户架构 数据应用发展趋势 报表仪表盘中展现?广告/推荐/视频质量提升/网络质量提升/精准营销?客户画像为基准的业务 数据智能:统计分析?OLAP ?数据挖掘与机器学习/实时决策 统计分析: 从手工统计,到大规模统计计算,到现在的实时统计,分布式实时统计是当前的主旋律。 OLAP分析: 预定义多维报表,到T级ROLAP在线分析,演进到分布式的T级,P级多维分析(MOLAP)和Ad hoc分析 预测分析:

文档评论(0)

younaifcg + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档