从科学方法变革和哲学思考探究大数据方法.docVIP

下载本文档

2
0
约3.22千字
约 7页
2018-08-16 发布于福建
举报
版权申诉

从科学方法变革和哲学思考探究大数据方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

从科学方法变革和哲学思考探究大数据方法

从科学方法的变革和哲学思考探究大数据方法　　摘要：信息与网络技术的迅猛发展给人们存储数据带来了极大便利，在这一背景下数据已逐步由量变转为质变，“大数据”概念应运而生，成为当下各行各业学者研究的焦点。本文在简述大数据涵义与方法的基础上分析了大数据方法及其改革，立足于科学方法变革与哲学思考角度提出大数据方法论，并进一步探究大数据的核心特征及其意义，以期为当下的大数据方法研究提供一定的借鉴价值。　　关键词：科学方法变革；哲学思考；大数据方法　　1998年，生物化学家托尼?卡斯在《大数据管理者》一文中首次提出“大数据”概念，并在2008年“大数据”专刊后迅速爆发，成为社会各界积极研究的热点课题。大数据的爆发带来了第二次数据革命，在实现万物皆数理念的同时开启了数据发展的第三个阶段，同时在科学研究当中，数据作用、地位的改变也引发了诸多哲学问题，使得大数据研究逐渐被纳入到科学、哲学领域当中。　　一、大数据的概述　　（一）内涵。首先，大数据是一门数据科学，它借助数据挖掘等方式来对海量数据这一研究对象的内在规律进行挖掘，所研究的内容涉及到不同科学领域当中的所有共性数据问题，在找出数据规律的基础上解答相关的科学问题；其次，大数据是一个技术平台，与常规的数据不同，大数据的数据收集、提取、存储、分析都离不开软件与硬件的支持，这些技术共同构成了大数据分析的技术平台；再次，大数据是一种研究方法，它涉及到生物医学、生物信息学、自然灾害预报等科学，科学在大数据背景下正逐步走向数据密集型科研；最后，大数据是一项潜在的资源，根据相关报告，大数据在医疗领域每年所创造的价值将高达300亿美元，且将会使零售业的利润提高一半以上。　　（二）方法。大数据中的数据挖掘主要采取分类、关联分析、聚类分析、异常检测技术。其中，分类是根据数据学习得出将自变量对应到因变量以实现自变量分类的分类模型；关联分析是对海量数据当中关联规则等有意义数据关系的发现；聚类分析是把海量数据划分为同簇对象相似性高、异簇对象极不相似的多个有意义的簇；异常检测是找出离群点的过程。　　二、大数据方法及其改革　　（一）与传统模型方法的区别。部分学者在研究过程中将模型划分为两类，即物质形式和思维形式的科学模型，前者根据模型来源的不同分为天然模型与人工模型；后者依据模型特点的差异分为理想模型、数学模型、理论模型以及半经验半理论模型。通过对比分析得出，大数据模型不同于传统数据模型，它不具有物质形式，是没有抽象过程的数据运算，且其算法同数学模型的得出过程大不相同，因此大数据模型并不属于以上的科学模型，而是一种新型的经验模型。　　（二）与统计建模的区别。数据挖掘在模型方法上虽然很接近统计学，但其与统计建模仍存在本质差异。表现在：1.研究地位。前者的数据模型是科学研究的主角并担当了科学理论角色，而后者一般是经验、理论研究当中的配角、检验者；2.数据类型。前者的数据是类型复杂、质量偏低的海量数据，后者则是精心设计、高质量的实验数据；3.模型确立。前者借助海量数据确立模型且其目标变量具有不明确性，后者依据研究问题确立模型且有明确的目标变量；4.建模驱动。前者采用强调建模过程、模型可更新性的数据驱动，而后者则采用强调设计、验证合理性的验证驱动。　　（三）与计算机仿真的区别。计算机仿真包含了由模型建立、仿真模型建立和仿真实验所联系的系统、系统模型以及计算机三要素。大数据方法与计算机仿真方法的区别主要表现在：1.研究对象。前者的研究对象为海量数据，后者则面向依据系统建立的数学模型；2.推理逻辑。前者为数据归纳，后者为演绎计算；3.自动程度。前者为计算机自动进行，后者的计算机仅仅在仿真实验环节采取自动进行；4.说明力度。前者相比较后者具有更高的说明力；5.角色地位。前者在科学研究中占据了主体地位，而后者则担当实验角色；6.基础设施。前者包括传感器、网络设施等，后者通常只涉及一台或多台计算机。　　三、大数据的方法论　　（一）逻辑维度。科学论证从逻辑角度来看可分为归纳和要求前提决定性支持结论的演绎。在大数据分类当中使用得最为广泛的方法是由包括根节点、叶节点、内部结点的结点与由向边构成的具有层次性的决策树。其中根节点、内部结点主要由数据集中属性组成而叶节点则由类标号所组成，由向边是在归纳已有数据的基础上所得出的，其归纳方法包括求同法和求异法。与其他算法的原理相同，决策树也是根据数据集中提取分类模型来完成分类的。　　（二）主体维度。传统科学定律的理解主要来自于规则性进路的恒常联系、心理习惯以及必然性进路的必然性，根据大数据模型可预测的、依据相关算法与数据得来、不具有必然性的特征可以得出大数据不属于演绎系统，不符合系统进路与必然性进路，但其预测性使得其符合心理习惯进路。因此，大数据