数据科学的研究范式探讨王志伟.pdfVIP

下载本文档

13
0
约1.08万字
约 11页
2018-07-25 发布于江苏
举报

数据科学的研究范式探讨王志伟.pdf

数据科学的研究范式探讨王志伟

“数据科学”的兴起基于大数据的时空研究范式探讨王志伟当今科学世界已进入复杂性科学研究时期，其中，自然科学、社会科学、认知科学、系统科学和科学技术等不同学科、不同领域相互交叉、结合与综合是新时期的特点。科学研究的融合范式得以更接近的揭示出客观世界形态的多元性、可变性以及形态转化的规律性。这也就要求科学界研究创新的认识论和方法论，建立科学的时空系统观。数据科学就是在这样的一个复杂生态环境中萌芽初发。从数据科学之说诞生之初，它就已超脱出学术界长久以来存在的 “实验科学”与“理论科学”之分以及 “描述科学”与“精确科学”之争。它的学科基因里与生俱来的就包含了定性与定量的结合子以及融合集成的方法论。按照库恩的范式理论，一个新学科的范式形成，大致有内外两个方面的标志：内在方面在科学共同体内形成共同的“学科基质”（范式），即通用的语言（理论方法），共同信念、共同价值和范例；外在方面是主流科学界（研究院、权威期刊等）对新学科的明确关注和认可。以此来审视数据科学，其目前仅仅还是处于前科学时期。本文试图就数据科学的萌芽构成做一个抛砖引玉的探讨。一大数据的涌现前不久，中国计算机学会(CCF)大数据专家委员会发布了《中国大数据技术与产业发展白皮书2013》。其中，明确指出：世界已进入网络化的大数据（Big Data ）时代。另据咨询公司IDC 的统计，2011 年全球被创建和复制的数据总量为1.8ZB （10 的 21 次方），其中 75%来自于个人（主要是图片、视频和音乐），远远超过人类有史以来所有印刷材料的数据总量（200PB ），且增长趋势遵循新摩尔定律 ( 全球数据量大约每两年翻一番) ，预计2020 年将达到35ZB 。Google 公司通过大规模集群和 MapReduce 软件，每月处理的数据量超过400PB ；百度每天大约要处理几十PB 数据；Facebook 注册用户超过10 亿，每月上传的照片超过10 亿张，每天生成300TB 以上的日志数据；淘宝网会员超过4 亿，在线商品超过9 亿， 1 每天交易数千万笔，产生约20TB 数据。传感网和物联网的蓬勃发展是大数据的又一推动力。大数据的特点可以总结为4 个V，即Volume （体量浩大）、Variety （模态繁多）、Velocity （生成快速）和Value （价值巨大但密度很低）。其次，大数据类型繁多，包括结构化数据、半结构化数据和非结构化数据。现代互联网应用呈现出非结构化数据大幅增长的特点，至2012 年末，非结构化数据占有比例将达到整个数据量的75% 以上。同时，由于数据显性或隐性的网络化存在，使得数据之间的复杂关联无所不在。近几年，Nature 和Science 等国际顶级学术刊物相继出版专刊来专门探讨对大数据的研究。一个横跨信息科学、自然科学、系统科学、人文科学、网络心理学、网络经济学、产业生态学和决策学等诸多领域的新兴交叉学科数据科学，正在逐步形成。若是单从信息科学的角度看大数据：它是利用信息技术对数量巨大的（网络）数据做统计性与结构性的搜索、比较、聚类、分类等分析归纳。大数据直接反映的是海量孤立的数据和分散的链接，这些反映相互关系的链接整合起来是一个复杂网络，进而形成为多层次嵌套的复杂系统。由此而论，数据科学就是从整体上研究复杂系统的一门科学，其中，复杂网络分析是数据科学的基元；TB级数据挖掘是数据科学的基石。二数据科学的范式数据科学的研究对象不言而喻就是海量数据。就大数据来说，它包括物理世界的源信息以及人类社会的相关活动信息。数据科学的研究目的：一是认识目的，即认识对象的性质、结构与运动规律；二是利用目的，即把已被认识的事物

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数据科学的研究范式探讨王志伟.pdfVIP