数据挖掘技术在美国院校研究中的应用数据挖掘datamining是一项.docVIP

数据挖掘技术在美国院校研究中的应用数据挖掘datamining是一项.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘技术在美国院校研究中的应用数据挖掘datamining是一项

数据挖掘技术在美国院校研究中的应用 数据挖掘(data mining)是一项新兴技术。作为商业智能(business intelligence)的重要组成部分,它已被广泛应用于企业及金融领域,成为产品分析、市场预测、欺诈防范等工作流程中举足轻重的技术手段,并取得了卓著的成效。近年来,随着高校数据收集量的不断增加以及教育决策对量化分析结果的愈加依赖,数据挖掘在美国高校管理中的应用呈显著上升趋势。 本文将简要介绍数据挖掘技术及其在美国高校管理中的应用现状,并通过个案分析,详细阐述数据挖掘建模步骤。 一、数据挖掘技术:定义与方法 (一)数据挖掘技术 数据挖掘是集数据库结构、统计学原理、机器学习、高性能计算等为一体的复杂技术融合体,是通过抽样、整合处理、建模、评估等一系列科学运作,从数据中探寻隐藏的信息和知识的过程。这些知识和信息可能体现了挖掘对象的个体特征,也可能反映了研究群体的发展变化趋势,等等。例如,我们可利用数据挖掘技术将具有共同或者相近属性的案例分群、分类,也可估算和预测未来某种事件发生的可能性,亦可探究某些事件发生的规律。 (二)数据处理与整合 数据处理与整合是数据挖掘的关键步骤之一。数据不准确、不完整都会导致分析挖掘结果的误差,从而影响获取暗藏在数据中的有用知识和信息。目前,绝大多数用于挖掘的数据都来自于数据库。但由于数据往往来自于不同的组织或者数据库,变量的定义不尽相同,也没有可以用来合并数据集的通用变量,因此,挖掘人员在建模之前必须对数据进行整合,并检查变量值的类别、分布状况,等等。在许多挖掘项目中,处理数据所花费的时间比建模的时间花费要多几倍。在处理数据时,常见的棘手问题是对数据集缺失值的填补和对偏态分布变量值的转换。处理缺失值有许多方法。一种是在分析数据时只包括具有完整数据的个体。但这种方法的弊端是有时缺失值本身反映了数据的某种特征,因此删除具有缺失值的个体会影响研究结果;另外,如果数据集含有非常多的缺失值,那么删除缺失值将使研究个体数量锐减,同样会影响研究结果。另一种方法是填充缺失值。有许多统计方法可用来完成这项工作,比如平均值、中值、回归方程预测等等。数据挖掘软件通常提供多种方法供研究人员根据数据的特点选择使用。处理偏态分布或含有游离值的连续性变量同样有多种可选择的方法。当然,建模者要根据使用的建模方法决定是否需要对这些变量进行数据转换。如果决定需要对某些变量进行转换,建模者必须根据变量的分布状态选择转换方法。 (三)数据挖掘方法 数据挖掘技术包括许多不同的方法,其中常用的有决策树(Decision Tree)、神经网络(Neural Network)、回归(Regression)、逻 辑 回 归 (Logistic Regression)、关 联(Association Rules)、聚类(Clustering)、集成(Ensemble)等。回归和逻辑回归方法和传统统计方法完全相同。本文仅对第三部分个案分析中使用的决策树、神经网络和集成方法予以简单阐述。决策树是利用一系列的决策规则将庞大的数据集分割成较小的具有同等或者非常相近属性的子数据集。图 1 显示了决策树的生成过程。个案从根节点进入决策树,然后由函数变量和测试方法决定个案所归属的下一个子节点或叶节点。类似的程序重复循环直到所有个案归属于某个叶节点。从根节点到每一个叶节点的路径形成一条“规则”。这些规则被用来对目标数据集进行预测分类。例如,图1 所显示的决策树含有五个路径,分别代表一条规则。神经网络通过模拟人的神经活动程序来处理一系列信息。它是由类似于神经元的许多元素精密连接形成的网络,通常包括三个层次:输入层、隐藏层和输出层(图 2)。输入层是将原始数据输入到神经网络。隐藏层包含许多类似于“神经元”的节点。这些节点是通过对输入变量之间及其与目标变量之间关系进行复杂运算产生“权重”结果。输出层所包含的变量可能是单一性的,也可能是多重性的。它们是通过对隐藏层上的神经元和输出值之间的“权重”进行计算得到。集成模型以其他挖掘方法建立的模型为基础构建而成。如果预测变量是分类型,集成模型是通过对预测变量的百分比进行平均得到新的集成模型的预测百分比;如果预测变量是连续型,集成模型则是通过对预测值进行平均得到新的集成模型的预测值。常用的建立集成模型的方法有两种:一种是从原始数据集中抽取不同的子数据集,然后利用同一种挖掘方法建立不同的模型,并将这些模型综合建立集成模型;另一种方法是用同一个数据集,利用不同的挖掘方法建立模型,然后再将这些模型综合建立集成模型。 图 1 决策树生成示意图 图 2 神经网络生成示意图 (四)模型的建立与评估 建模时,通常需要将数据集分割(data partition)成运行(training)、确认(validation)和测试(test)

文档评论(0)

laolao123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档