数据科学及研究范式探讨王志伟.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
“数据科学”的兴起 基于大数据的时空研究范式探讨 王志伟 当今科学世界已进入复杂性科学研究时期,其中,自然科学、社会科学、认 知科学、系统科学和科学技术等不同学科、不同领域相互交叉、结合与综合是新 时期的特点。科学研究的融合范式得以更接近的揭示出客观世界形态的多元性、 可变性以及形态转化的规律性。这也就要求科学界研究创新的认识论和方法论, 建立科学的时空系统观。 数据科学就是在这样的一个复杂生态环境中萌芽初发。从数据科学之说诞生 之初,它就已超脱出学术界长久以来存在的 “实验科学”与“理论科学”之分以 及 “描述科学”与“精确科学”之争。它的学科基因里与生俱来的就包含了定性 与定量的结合子以及融合集成的方法论。 按照库恩的范式理论,一个新学科的范式形成,大致有内外两个方面的标志: 内在方面在科学共同体内形成共同的“学科基质”(范式),即通用的语言(理论 方法),共同信念、共同价值和范例;外在方面是主流科学界(研究院、权威期 刊等)对新学科的明确关注和认可。以此来审视数据科学,其目前仅仅还是处于 前科学时期。 本文试图就数据科学的萌芽构成做一个抛砖引玉的探讨。 一 大数据的涌现 前不久,中国计算机学会(CCF)大数据专家委员会发布了《中国大数据技术与 产业发展白皮书2013》。其中,明确指出:世界已进入网络化的大数据(Big Data ) 时代。另据咨询公司IDC 的统计,2011 年全球被创建和复制的数据总量为1.8ZB (10 的 21 次方),其中 75%来自于个人(主要是图片、视频和音乐),远远超 过人类有史以来所有印刷材料的数据总量(200PB ),且增长趋势遵循新摩尔定律 ( 全球数据量大约每两年翻一番) ,预计2020 年将达到35ZB 。Google 公司通过 大规模集群和 MapReduce 软件,每月处理的数据量超过400PB ;百度每天大约 要处理几十PB 数据;Facebook 注册用户超过10 亿,每月上传的照片超过10 亿 张,每天生成300TB 以上的日志数据;淘宝网会员超过4 亿,在线商品超过9 亿, 1 每天交易数千万笔,产生约20TB 数据。传感网和物联网的蓬勃发展是大数据的 又一推动力。 大数据的特点可以总结为4 个V,即Volume (体量浩大)、Variety (模态繁 多)、Velocity (生成快速)和Value (价值巨大但密度很低)。其次,大数据类型 繁多,包括结构化数据、半结构化数据和非结构化数据。现代互联网应用呈现出 非结构化数据大幅增长的特点,至2012 年末,非结构化数据占有比例将达到整 个数据量的75% 以上。同时,由于数据显性或隐性的网络化存在,使得数据之间 的复杂关联无所不在。 近几年,Nature 和Science 等国际顶级学术刊物相继出版专刊来专门探讨对 大数据的研究。一个横跨信息科学、自然科学、系统科学、人文科学、网络心理 学、网络经济学、产业生态学和决策学等诸多领域的新兴交叉学科数据科学, 正在逐步形成。 若是单从信息科学的角度看大数据:它是利用信息技术对数量巨大的(网络) 数据做统计性与结构性的搜索、比较、聚类、分类等分析归纳。大数据直接反映 的是海量孤立的数据和分散的链接,这些反映相互关系的链接整合起来是一个复 杂网络,进而形成为多层次嵌套的复杂系统。由此而论,数据科学就是从整体上 研究复杂系统的一门科学,其中,复杂网络分析是数据科学的基元;TB级数据挖 掘是数据科学的基石。 二 数据科学的范式 数据科学的研究对象不言而喻就是海量数据。就大数据来说,它包括物理世 界的源信息以及人类社会的相关活动信息。数据科学的研究目的:一是认识目的, 即认识对象的性质、结构与运动规律;二是利用目的,即把已被认识的事物

文档评论(0)

chqs52 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档