大数据第二组总结.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据分类 大数据分类——按产生主体划分 最里层:少量企业应用产生的数据 关系型数据库中的数据 数据仓库中的数据 微博、微信 电子商务在线交易日志数据 呼叫中心评论、留言或者电话投诉等 企业应用的相关评论数据 应用服务器日志 传感器数据(天气、水、智能电网等) 图像和视频(摄像头监控数据等) RFID、二维码或条形码扫描数据 次外层:大量人产生的数据 最外层:巨量机器产生的数据 大数据分类——按数据来源划分 通过服务器和数据中心数量,以及各行业数据梳理,大致判断国内2013年一年产生的数据总量以及大致分布,数据主要分布在以下行业: 1、BAT为代表的互联网公司。 2、电信、金融、保险、电力、石化系统。 3、公共安全、医疗、交通领域。 4、气象、教育、地理、政务等。 5、其他,商业销售、制造业、农业、物流和流通等领域。 阿里巴巴 目前保存的数据量为近百PB 拥有90%以上的电商数据 交易数据、用户浏览和点击网页数据、购物数据 2013数据总量接近一千个PB 中文网页、百度推广、百度日志、UGC 以70%以上的搜索市场份额坐拥庞大的搜索数据 腾讯 总存储数据量经压缩处理以后在100PB左右 数据量月增10% 大量社交、游戏等领域积累的文本、音频、视频和关系类数据 添加标题 百度 BAT为代表的互联网公司 大数据分类——按数据来源划分 电信行业 用户上网记录、通话、信息、地理位置 运营商拥有的数据数量都在10PB以上 年度用户数据增长约数十PB 开户信息数据,银行网点和在线交易数据、自身运营的数据 金融系统每年产生数据达数十PB 保险系统数据量也接近PB级别 电力与石化 仅国家电网采集获得的数据总量就上10个PB级别 石油化工、智能水表等领域每年产生和保存下来的数据量也达到数十PB级别。 金融与保险 电信、金融、保险、电力、石化系统 大数据分类——按数据来源划分 公共安全 北京:50万个监控摄像头,每天采集视频数据量约3PB 整个视频监控每年保存下来的数据在数百PB以上 仅广州中山大学医院2013年数据量为1000个TB 整个医疗卫生行业一年能够保存下来的数据就可达到数百PB 交通 航班往返一次能产生数据就达到TB级别 列车、水陆路运输产生的各种视频、文本类数据,每年保存下来的也达到数十PB。 添加标题 医疗卫生 公共安全、医疗、交通领域 大数据分类——按数据来源划分 气象与地理 中国气象局保存的数据约4~5PB,每年约增数百个TB 各种地图和地理位置信息每年约数十PB 北京市政务数据资源网涵盖旅游、教育、交通、医疗等门类,一年上线公布了400余个数据包 政务数据多为结构化数据 政务与教育 气象、教育、地理、政务等领域 大数据分类——按数据来源划分 商业销售、制造业、农业、物流和流通等领域 大数据分类——按数据来源划分 其他传统行业 线下商业销售、农林牧渔业、线下餐饮、食品、科研、物流运输等行业数据量剧增 行业数据量还处于积累期,整个体量都不算大,多则达到PB级别,少则百TB甚至数十TB级别。 制造业 制造业的存储数据类型: 产品设计数据:以文件为主,非结构化,共享要求较高,保存时间较长。 企业生产环节的业务数据:数据库结构化数据 生产监控数据:数据量非常大 大数据分类——按存储形式划分 大数据不仅仅体现在数据量大,也体现在数据类型多。如此海量的数据中,仅有20%左右属于结构化的数据,80%的数据属于广泛存在于社交网络、物联网、电子商务等领域的非结构化或半结构化的数据。 大数据分类——按存储形式划分 结构化数据 即行数据,可用二维表结构来逻辑表达实现 主要存储在关系型数据库中 先有结构再有数据,结构一般不变 处理起来较方便 大数据分类——按存储形式划分 非结构化数据 相对于结构化数据而言,不方便用数据库二维逻辑表来表现 非纯文本类数据,没有标准格式 包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息 存储在非结构数据库中 非结构化WEB数据库:突破了关系数据库结构定义不易改变和数据定长的限制 大数据分类——按存储形式划分 半结构化数据 介于完全结构化数据和完全无结构的数据之间 格式较为规范,一般都是纯文本数据 包括日志数据、XML、JSON等格式的数据 一般是自描述的,数据的结构和内容混在一起,没有明显的区分 数据模型主要为树和图的形式。 新周刊微博案例分享 作为国内新锐媒体代表的“新周刊”是新浪微博的第一批受益媒体,他们开通了新浪微博后,截止到2010年11月19日,粉丝数已经达到了878966人,发表微博6488条。 封新城 新周刊 主编、媒体微博交相呼应 截止到2010年11月,封新城的微博粉丝数已接近36万 都市

文档评论(0)

***** + 关注
实名认证
文档贡献者

我是自由职业者,从事文档的创作工作。

1亿VIP精品文档

相关文档