- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据在中国 黄园欢 什么是大数据 大数据(big data,mega data),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。 何为大?—数据度量 1Byte = 8 Bit 1KB = 1,024 Bytes 1MB = 1,024 KB = 1,048,576 Bytes 1GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes 1TB = 1,024 GB = 1,048,576 MB = 1,099,511,627,776 Bytes 1PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes 1EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes 1ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes 1YB = 1,024 ZB = 1,208,925,819,614,629,174, 大数据在国外 沃尔玛也通过大数据获益,公司在对消费者购物行为进行分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是推出了将啤酒和尿布捆绑销售的促销手段,如今这一“啤酒+尿布”的数据分析成果也成了大数据技术应用的经典案例, Target百货公司,一次他们根据一个女孩在Target连锁店中的购物记录,推断出这个女孩怀孕了,然后开始通过购物手册的形式向女孩推荐了一系列孕妇产品。这一做法让女孩的家长勃然大怒,事实真相是女孩隐瞒了自己的怀孕消息。 从一个人杂乱无章的购买清单中,经过对比发现了其中的规律和不符合常规的数据,并就此得出一些真实的结论,这就是大数据应用的一个案例。 中国的大数据现状 中国大数据资源的拥有者 中国的困难和机遇 数据割据 数据孤岛 反馈经济 大数据政府 第一PPT模板网 /tubiao/ 1 2 3 4 大数据的4V特征 体量Volume 多样性Variety 价值密度Value 速度Velocity 数据量的大规模增长,单一数据集的规模范围从几十TB到数PB。 新型多结构数据,以及传感器网络等数据类型造成。 大量的数据应用可以对未来趋势与模式的进行可预测分析。 实时分析,而非批量分析。数据处理可以立竿见影,而非时候见效。 《红楼梦》含标点87万字(不含标点853509字) 每个汉字占两个字节:1汉字=16bit = 2*8位=2bytes 1GB 约等于671部红楼梦 1TB 约等于631,903 部 1PB 约等于647,068,911部 美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据235TB ) 中国国家图书馆:2631万册 1EB = 4000倍美国国会图书馆存储的信息量 MGI估计,全球企业2010 年在硬盘上存储了超过7EB(1EB 等于10 亿GB)的新数据,同时,消费者在PC 和笔记本等设备上存储了超过6EB 新数据 数据来源 通信和互联网运营商 互联网企业 物联网、移动设备 卫星云图数据 终端中的商品、个人位置、传感器采集的数据 很明显,英文世界里,“bigdata”的搜索结果计数比中文世界里的“大数据”搜索结果计数要多了不少;而“analytics”(分析)的搜索量不仅仅高于“bigdata”,更是远远高于“分析”在中文世界里的搜索结果,大概是169倍! 在参与调查的样本中,包括了政府/公共事业、物流零售、文化娱乐、能源/制造、金融/保险、交通旅游、IT 互联网电信等行业,可以看出大数据已经受到广泛的行业关注。 1.大数据在中国的行业分布 参与调查的样本分布方面,基本上可以体现出中国经济发达程度的差异,不难理解,对大数据关注的地域基本上以沿海经济发达地区为主。 2.大数据在中国的地域分布 中国的三大网际网路企业 百度、腾讯、阿里,他们是目前大数据的主导拥有者和使用者 电信运营商 拥有大量的数据 金融机构、政府 也有相应的数据 通过这些数据都勾勒出一个人的基本面貌。“20年网际网路时有一句话,在网际网路上没有人知道你是一条狗,但今天你是不是一条狗,网络比你更清楚。” 1 2 3 4 困难 数据割据 数据孤岛 反馈经济 大数据政府 非IT企业数字化、互联网巨头数据割据、政府监管和开放、用户的隐私顾虑,让大数据看起来是一个很难实现的乌托邦。 政府各部门的信息数据处于“孤岛”状态,极大影响政府的行政效率和相关部门的资源共享。 在过去很长的一个时期里,数据中心的架构就如同群岛一般。 反馈经济”和移动互联
文档评论(0)