大数据地大问题.PDF

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据的‚大‛问题 本报记者 计红梅 连日来,2012 年美国总统大选成为信息技术领域大数据研究者 们最爱探讨的话题。 与此前的历届选举不同,此次大选伊始,美国总统的竞选团队们 就纷纷利用数据分析方法来寻找和锁定潜在的己方选民,并使用最前 沿的数字化策略定位并拉拢那些中间派选民。整个过程中,大数据应 用的威力可谓发挥得淋漓尽致。 可以想见的是,无论四年一度的美国总统大选投票日(11月6 日) 之后结果如何,本已位居2012 信息技术时髦词汇榜首的大数据,热 度还将继续攀升。 不过,与外行们的看热闹不同,大数据的研究者们更关心的,则 是这一事件体现出的大数据的‚大‛问题。 ‚大‛数据 每天要处理25 亿条消息、500 多 TB 的数据、上传3 亿张照片、 每半个小时扫描的数据大约为105TB……一说到大数据,人们首先想 到的便是以社交网络Facebook 为代表所产生的大量数据。 在近日由中国计算机学会 (CCF)主办、大连大学承办的2012 中 国计算机大会上,中国工程院院士李国杰在谈及大数据的定义时,也 开明宗义地说到了上述数据所体现出的四个‚V ‛,即体量巨大 (Volume)、数据类型多样 (Variety)、价值大但密度低 (Value)以 及处理速度快 (Velocity)等特点。 在当天的大会论坛上,加拿大西安大略大学教授凌晓峰表示,信 息技术正在以一种难以置信的速度发展,其表现之一就是数据的成倍 增长。 如何在信息技术发展的大背景下理解大数据因何为‚大‛?李国 杰告诉《中国科学报》记者,信息技术的发展使得信息采集的成本大 大降低,这是数据快速增长的主要原因。根据数据的来源,大数据大 略可以分为两类:一类来自物理世界,如天文、生物等研究领域;另 一类则来自人类社会,特别是与互联网有关。以脑科学为例,用电子 显微镜重建大脑中的突触网络,1立方毫米大脑的图像数据就超过了 1PB。 ‚有了大量的数据,自然就要挖掘其价值。大数据的出现可以说 是自然而然、水到渠成的。‛ 李国杰说。 然而,在信息技术领域,数据分析的历史远远要比大数据长。以 上世纪90 年代中期兴起的数据挖掘技术为例,该技术的宗旨就是发 现数据中有用的模式,并以之解释当前的行为或预测未来的结果,提 供有用的决策信息。 数据挖掘是如何演变为大数据的呢?香港中文大学常务副校长 华云生认为,这主要是由于随着信息技术的发展,挖掘数据价值的速 度大大慢于数据产生的速度。在数据量越来越大、数据变化又很快的 情况下,就诞生了大数据,即在固定的时间内找到所需信息的价值。 ‚大数据的‘大’是相对的‛。美国罗格斯-新泽西州立大学教 授熊辉也认为。他举例说,10MB 的数据量并不大,但要在 1 毫秒之 内对 10MB 数据完成复杂的数据挖掘分析,可能超越目前常用设备的 数据处理能力。因此,大数据的‚大‛只是相对的概念,不只是量大, 而且对处理的速度也提出了苛刻的要求。 ‚大‛ 应用 ‚目前推动大数据研究的动力主要来自企业的经济效益。‛李国 杰告诉记者,巨大的经济利益驱使大企业不断扩大数据处理规模,IBM、 甲骨文、微软、谷歌、亚马逊、Facebook等跨国巨头是发展大数据处 理技术的主要推动者。 而在金蝶国际软件集团有限公司首席科学家、高级副总裁张良杰 博士看来,大数据在企业中的应用主要有三个模式。一类是最早的沃 尔玛和Visa模式,例如沃尔玛之所以将某些商品放置在一起就是基于 数据分析的结果。其次是互联网企业对用户消费行为进行分析,进而 更精准地投放广告。数据显示,eBay通过数据分析技术可以精确计算 出广告中的每一个关键字为公司带来的回报。通过对广告投放的优化, 2007年以来eBay产品销售的广告费降低了99%,而顶级卖家占总销售 额的百分比却上升至32%。 第三种则是把大数据的分析能力放在‚云‛里,通过数据共享的 方式,实现众包服务。对此,张良杰举例说,6000家公司为了解决同 一问题,每家公司都需要提供6个分析师。而一家128人的小公司利用 云存储和云计算,就可以通过众包的模式接受来自这6000家公司的外 包服务,并解决其问题。

文档评论(0)

133****0075 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档