浅议数据挖掘在心理学研究领域应用.docVIP

下载本文档

66
0
约3.95千字
约 9页
2018-09-13 发布于福建
举报
版权申诉

浅议数据挖掘在心理学研究领域应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浅议数据挖掘在心理学研究领域应用

浅议数据挖掘在心理学研究领域应用　　摘要:当今社会信息化进程日新月异,心理学研究过程中涉及的因素和积累的数据越来越多,传统的心理学分析方法已经无法适应海量数据处理的要求。数据挖掘技术可以从海量数据中分析并获取有效的信息。本文介绍了数据挖掘技术基本概念、主要任务和方法,阐述了其在心理学研究领域应用的一般过程。　　关键词:数据挖掘心理学关联规则　　　　1 引言　　1879年,冯特在德国莱比锡建立了世界第一个心理实验室,标志着科学心理学的诞生。同时注定心理学的研究要与大量心理学数据紧密联系。无论是实验数据,还是调查或测量数据,人们需要从这些数据中发现行为和心理活动的某种规律,对某些心理现象做出清晰的解释,找出不同事件间的关联,并对某种行为的发生进行预测和控制。　　当今社会已经进入信息化时代,随着数据库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度迅速增长。社会的发展使得心理学研究涉及因素不断增多,心理学相关数据随着时间积累也在迅速扩大。这些数据的背后隐藏着许多重要信息,但是要从海量数据中寻找有用的信息却十分困难。如何充分有效的利用所收集的数据中的信息,使用传统的数据处理方法难以适应深入分析的需要,缺乏挖掘数据背后隐藏知识的手段。人们希望能够对这些数据进行更高层次的分析。数据挖掘技术就是为满足这种需求而产生和不断发展的。　　2 数据挖掘概述　　2.1 数据挖掘定义　　数据挖掘(Data Mining)是指从大量的、不完全的、有噪声的、模糊的、随机的数据中发现隐含在数据中的关系,建立模型,提取具有潜在价值、可信、新颖、有效并能被人所理解的信息和知识的过程。它又被称为数据库中的知识发现(KDD:knowledge discovery in database)、数据分析等。用数据挖掘方法分析数据,挖掘隐藏在数据中的知识可以实现对数据更高层次的处理,将大量看似无序的数据转变为有用的、系统化的知识。　　2.2 数据挖掘的主要任务　　(1)分类:分类的目的是提出一个分类模型,该模型把数据库中的数据项与指定的数据类别相对应。分类问题属于预测性问题,但与普通预测性问题不同的是,它预测的结果是类别,不是具体数值。例如面对某人,判断其为多血质。分类预测的前提是历史数据的收集和特征分析。　　(2)聚类:聚类是对数据分组,把特征相同的数据,划分为同一类。聚类和分类的本质区别是,分类是预测一个未知类别的数据属于哪个类别,聚类是根据选定的指标,对一组数据进行划分。聚类不属于预测性问题。　　(3)关联规则:数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种相关性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联规则的目的是发现数据或特征之间的相互依赖关系。　　(4)预测:即普通的数值预测,多使用统计学方法,例如回归分析和时间序列分析。　　(5)偏差分析:偏差分析包括分类中的反常实例、例外模式、观察结果对期望值的偏离以及量值随时间的变化等。通过发现异常,使人们加倍注意特殊情况。　　2.3 两种常用的数据挖掘方法　　(1)决策树方法　　决策树方法是一种常用的数据挖掘算法,主要用于数据的分类和聚类。决策树方法首先对数据进行处理,利用归纳算法生成决策树,然后使用决策树对新数据进行分析。构造决策树时首先利用信息论和数理统计中的方法寻找数据库中具有最大信息量、最重要的数据项,然后采用自顶向下递归的方式构造决策树。　　决策树由决策结点、分支结点和叶子结点组成。根结点是整个决策树的开始。每个分支结点是一个新的决策结点。每一个决策结点代表一个问题或决策,通常对应待分类对象的属性。每一个叶子结点代表一种可能的分类结果。从根结点到叶子结点的一条路径就形成了一个分类规则。在沿着决策树从上到下遍历的过程中,每个结点都会遇到一个测试,对每个结点上不同的测试会导致不同的分支,最后到达一个叶子结点。这个过程就是利用决策树进行分类的过程。　　决策树算法可以对行为和心理问题进行数据预测分析,一般过程为:首先计算哪种属性与心理问题最相关,以此作为决策树的根节点,然后采用递归的方法将剩余的属性分类,形成决策树,建立一个分类树状模型,用以进行分析预测。　　(2)关联规则挖掘　　一个大型关系数据库,字段之间存在着各种各样的关系,这些关系就隐含在数据中,关联规则挖掘的目的是从大量数据中找出这些隐藏的关联。关联规则挖掘过程主要包含两个阶段: 　　第一阶段从大量原始数据集合中,找出所有高频率出现的频繁项集。高频率是指某一频繁项集出现的频率相对于所有数据而言,必须达到某一水平。频繁项集出现的频率称为支持度,所谓高频率出现的频繁项集,要求支持度大于等于所设定的最小支持度