150130大数据科学方法的变革和哲学思考重点.docx

150130大数据科学方法的变革和哲学思考重点.docx

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据科学方法的变革和哲学思考2015-01-26和君商学随着信息技术和网络技术的快速发展,人类所存储的数据越来越多,数据已经从量变走向了质变,成为了“大数据”(Big Data)。大数据概念首见于1998年《科学》(Science)中的《大数据的管理者》(A Handler for Big Data)一文。2008年《自然》(Nature)的“大数据”(“Big Data”)专刊之后,大数据便爆发了,成为了学术、产业和政府各界甚至大众的热门概念,美国等发达国家已经制定并实施大数据战略。刘红、胡新和指出,大数据带来了第二次数据革命,使得万物皆数的理念得以实现,标志着数据发展史上第三个阶段的开始;数据在科学研究中的地位与作用发生了变化,引发了一系列哲学问题,应当纳入到科学哲学的研究领域。S.莱奥内利(S. Leonelli)以生物医学本体(Biomedical Ontologies)为案例,探讨了理论在数据密集型科学中的角色。W. 皮奇(W. Pietsch)探讨了大数据中的因果性,提出大数据的水平建模。在各界喧嚣的大数据浪潮中,大数据究竟意味着什么?这是一个非常值得深思的问题。一、大数据的内涵及方法关于大数据表现形式的概括,目前较为广泛认可的是4V说,即规模性(vlume)、多样性(variety)、高速性(velocity)以及价值性(value)。如果从大数据存在方式及其功能的角度来加以审视,即从其自身维度、支撑维度、工具维度和价值维度来考察,就形成了“四维说”(见图1)。图1 大数据的“四维说”  从自身维度看,大数据是数据科学。数据科学以海量的数据为研究对象,通过数据挖掘等手段来寻找海量数据中潜在的规律。它研究各个科学领域所遇到的具有共性的数据问题,通过对数据的规律的研究来实现对科学问题的解答。比如,天文学的研究方法与癌症的研究方法是相通的。  从支撑维度看,大数据是技术平台。海量数据的收集、存储以及提取都不同于常规数据,需要全新的软硬件技术支持。无论是数据的查询还是分析,都必须基于特定的软件,这些技术以及用于存储和查询的系统的总和,便是支撑大数据分析的技术平台。  从工具维度看,大数据是研究方法。它已经进入生物信息学、生物医学、地震预报、天气预报等数据密集型的科学领域。图灵奖得主吉姆·格雷(Jim Gray)更明确指出,科学将进入继实验、理论、计算模拟之后的第四范式:数据密集型科研。  从价值维度看,大数据是潜在资源。麦肯锡报告指出,在医疗行业,大数据每年创造的价值预计超过3000亿美元,在零售业方面,大数据预计将提升利润60%以上。  作为研究方法的大数据,为科学提供了一种新的研究方法。大数据概念由费亚德(Fayyad)在1995年的知识发现会议上首次提出,主要研究方法是数据挖掘,其基本目标有两个:描述(descriptive)与预测(predictive)。通过描述以刻画海量数据中潜在的模式,并根据数据中潜在的模式来进行预测,从而发现数据中有价值的模型和规律。  数据挖掘的主要技术有:分类(classification)、关联分析(association analysis)、聚类分析(cluster analysis)以及异常检测(anomaly detection)。分类是指通过数据学习得到一个分类模型(classification model),该模型将自变量对应到因变量,从而实现对自变量的分类。关联分析是指发现海量数据中有意义的数据关系,包括频繁项集和关联规则(association rule)。聚类分析是指将海量数据划分成有意义的多个簇(cluster),簇内的对象具有很高的相似性,不同簇中的对象很不相似。异常检测是指找出其行为很不同于预期对象的过程,这种对象称为离群点(outlier)。  目前,国际上对于大数据方法中的模式(pattern)与模型(model)并没有作区分。在谭(Pang-Ning Tan)等人编写的教材《数据挖掘导论》中,对于数据挖掘的定义使用的是模式一词,在分类这一具体技术中,使用的则是模型一词。W.皮奇则指出,大数据的目标就是发现海量数据中潜在的模型。在此意义上,大数据方法是一种模型方法。 二、大数据方法的变革1.与传统模型方法比较,大数据模型与传统模型有很大的区别例如,孙小礼将模型划分为物质形式的科学模型与思维形式的科学模型(见表1)。在物质形式的模型中,模型来源属于天然存在物的便是天然模型,模型来源属于人工制造物的便是人工模型。在思维形式的模型中,根据模型不同的特点分为:理想模型、数学模型、理论模型以及半经验半理论模型。理想模型强调的是模型的抽象性,数学模型强调的是模型的数学基础,理论模型强调的是模型的理论基础,而半经验半理论模型强调的是模型的来源,既包含理论成分,又包含经验

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档