- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE 1
PAGE 1
大数据的“孤岛困境”
是否有可能把处在不同企业、不同服务上的“孤岛”数据进行整合,建立一个数据交换平台,同时做好个人信息的保护,使数据实现正常化? 是否有可能把处在不同企业、不同服务上的“孤岛”数据进行整合,建立一个数据交换平台,同时做好个人信息的保护,使数据实现正常化? 这对公司、个人,甚至对于整个社会来说,都是有益的。但对于商业的实体来说,大数据现在已经成为其资产的一部分,共享数据可能意味着会丢失其竞争优势。 拿出一支笔,在我国版图上以黑龙江省的黑河、云南省的腾冲为两点画一条线,线的右侧只占国土面积的36%,却居住着占96%的人口——这就是我国着名人口地理学家胡焕庸在1935年发觉的“黑河—腾冲线”,也叫胡焕庸线,在我国地理学以及人口学上,具有重大意义。 “这就是80年前的大数据。”7月25日,在由腾讯互联网与社会研究院举办的“大数据连接的将来”高峰论坛上,腾讯公司即通产品部副总经理冼业成展示了一张我国QQ同时在线人数活跃度图,与“黑河—腾冲线”图作对比,结果显示,两张图惊人相似。 冼业成由此进一步表示,通过对大数据的采集与挖掘,可以满意政府、企业与个人的多方面需求,如通过大数据的预估功能为其决策供应一定参考等。 规模并非唯一推断依据 在维基百科中,大数据被定义为:所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息;百度百科的词条则表述为:大数据,或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 中国人民大学信息学院副院长文继荣教授表示,维基和百度百科里对大数据的定义基本集中在“大”的概念,但并没有揭示更深刻的问题。 “大数据首先是一种进行推断和预估的能力。”文继荣解释,其前提在把握这种海量数据收集存储和处理的技术基础上,随之产生了能推断或预估的新能力。 “其实所谓大数据并没有一个肯定的数量,不能说100个T的数量是不是大数据。大数据主要跟它所应用的问题规模大小有关系。”文继荣解释,“也就是说要把数据用在某一个问题上,这个问题的规模尤其是样本空间大小,会打算这些数据足不足够大。” 文继荣表示:“假如某一数据能充分掩盖问题的样本空间,它对于这个问题就是大数据。因为各种可能出现的状况都有相应数据进行掩盖,这样的数据就足够大了。” 既要讲规模又要讲质量 与会专家提示,如今在研究大数据过程中出现了一种现象:许多人往往认为数据大了即可,可是却忽视了一个问题,即数据的质量。假如拿着一堆质量不牢靠的数据就去做一些所谓的统计分析,结果是很危急的。 “传统上要做许多统计分析的时候,我们特殊强调数据抽样的无偏性、随机性。可是今日大家用大数据的时候似乎就遗忘了这点,觉得只要我收集了许多数据简洁统计一下,因为我是大数据,我是全样本,就不用去管数据的质量,这无疑是特别危急的一个趋势。”文继荣认为。 牛津大学互联网研究院研究员王宁就在论坛上提示,要考虑大数据可能带来的两大风险:一是对数据的误读,二是数据所存在的偏差问题。 普元数据产品总监王轩此前也在接受媒体采访时表示,有的企业是基于数据分析作出了一些营销的趋势性结论,但假如数据本身是错的,分析出来的结论未必有用。 在业内更是曾有过这样一种说法:假如数据精确度在60%,作出来的事一定会被用户骂;假如数据精确度在80%左右,用户会说“还不错”;只有数据精确度达到90%,用户才会觉得真牛。 “信息孤岛”亟待打破 腾讯公司社交网络事业群总裁、腾讯公司高级执行副总裁汤道生还在论坛上提出了“信息孤岛”的问题。 汤道生认为,如今大家使用到的数据,大多是由不同的企业、不同的服务搜集到的,也就是说都是在孤岛上捕获的,而与此相悖的是大数据一个很重要的性质——可扩展性,而当下大数据的发展,也使得可扩展性显得愈发重要。 “处在信息的孤岛上,每一家公司可能都有自己的云,而要把这些处在不同孤岛上的数据进行整合,去创建一个更加综合的情景来从中受益,这里还有许多的挑战。”汤道生表示。 汤道生说,自己一直在思索的问题是:是否有可能把这些处在不同孤岛上的数据进行整合,建立一个数据交换平台,同时做好个人信息的保护,使数据实现正常化。 “这对公司、个人,甚至对于整个社会来说,都是有益的。但我深知其中的困难,因为对于商业的实体来说,大数据现在已经成为其资产的一部分,共享数据
原创力文档


文档评论(0)