网络数据科学与工程.pdfVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

网络数据科学与工程—一门新兴的交叉学科?

——香山科学会议第424学术讨论会综述

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据

集合。数据成本的下降助推了数据量的增长,新的数据源和数据采集技术的出现大大增加了

数据的类型,数据间复杂的相互联系使大数据的处理变得异常困难。全球信息总量每两年就

增长一倍左右,2011年全球被创建和被复制的数据总量有1.8ZB(1021),到2020年全球

所管理的数据将达到35ZB,比现在多出50倍。

数据量的指数级增长不但改变了人们的生活方式、企业的运营模式,也改变了科研范

式。今年3月美国政府6个部门宣布启动2亿美元的大数据“研究与发展计划”,使大数据研

究上升为国家意志。欧盟也有类似的举措,今年1月截止的预算为5千万欧元的FP7Call8

专门征集针对大数据的研究项目,并以基础设施为先导。大数据研究已成为科研的热点。

2012年5月22~24日,主题为“网络数据科学与工程─一门新兴的交叉学科?”的

香山科学会议第424次学术讨论会在北京召开。会议聘请中国科学院计算技术研究所李国

杰研究员、香港中文大学华云生教授、清华大学姚期智教授以及中国科学院计算技术研究所

程学旗研究员担任执行主席。来自国内外信息、经济、生物、社会等领域及企业共43位专

家学者应邀出席本次会议。

李国杰院士和华云生教授作了会议主题评述报告。会议围绕大数据应用挑战、网络大

数据科学的共性理论基础和网络大数据工程的良性生态环境三个中心议题进行了深入探讨,

共组织了3个中心议题评述报告和13个专题报告。

一、大数据科学与工程面临的挑战性问题与学科基础

李国杰研究员作了题为“网络大数据应用提出的挑战性问题”主题评述报告,指出目前大

数据的工程技术研究已走在科学研究的前面,科研人员首先要虚心与各应用领域的科研人员

合作,努力解决各领域大数据处理提出的技术挑战问题。这些挑战包括:高效处理非结构化

和半结构化数据;合适的数据表示方法;寻找高扩展性的数据分析技术;数据的去冗余和高

效率低成本的数据存储;大幅度降低数据处理、存储和通信的能耗;构建融合人、机、物三

元世界的大数据系统等。现有计算机系统不能满足大数据的需求,需要对整个IT架构进行

革命性的重构。

在讨论网络数据科学能不能成为一门新的交叉学科之前,首先要搞清楚“网络数据科学”

研究的对象究竟是什么。许多学者认为数据科学要把数据当成自然体(DataNature)来研

究,试图把计算机科学划归为自然科学。脱离各个领域物“理世界”,作为客观事物间接存在

形式的数据“界”究竟有什么共性问题目前还不清楚。本次香山会议的重点不是讨论自然科学

中的海量信息处理,而是讨论网络空间(Cyberspace)中的大数据挑战问题。网络空间中

的数据背后是数据关系网络,数据网络背后是人。研究数据网络实际上是研究人组成的社会

网络。网络数据科学应发现网络数据(信息)产生与传播的规律、网络信息涌现的内在机制

以及与其相关的社会学、心理学、经济学和信息科学的机理,利用这些机理研究互联网对政

治、经济、文化等各方面的影响。

传统计算机科学是研究算法的科学,而网络数据科学不能局限于此。网络数据科学应

不同于传统的人工智能和统计学,面对PB级以上的海量数据,需要更简单有效的问题求解

方法。大数据的分析不能停留在获得概率分布结果,也不能满足于对细节问题的数据挖掘,

而是要争取从大数据中获得新知识。应优先选择预言性数据挖掘问题“”做研究,即数据规模

大到一定程度,就可以解决以前解决不了的问题,实现社会科学的变革式“”进步。

他最后指出,大数据研究被国外一些学者称之为科研第四范式“”,强调不需要事先给出

假设和模型,可以直接从数据的相互关系中求解问题,甚至认为大数据研究方法是理“论的

终结”。数据量的增加是否会引起科研模式本质性的改变,相互关系是否比因果关系更能反

映事物的本质,还需要更多的科研实践来验证。但可以断言,20世纪是量子力学的世纪,

到了21世纪

文档评论(0)

188****5560 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档