高校信息化中数据挖掘现状调研及应用研究.docVIP

高校信息化中数据挖掘现状调研及应用研究.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
高校信息化中数据挖掘现状调研及应用研究.doc

高校信息化中数据挖掘现状调研及应用研究   摘要:数据挖掘是从海量数据中抽取出有价值知识的有效工具,数据挖掘是针对数据进行处理较为成熟的技术。目前数据挖掘技术应用范围广泛,并且取得较为显著的效果。高校信息化建设的快速发展下产生了大量信息,数据挖掘技术以应用到高校信息化建设中如:招生就业、教学管理和教学模式等方面,并且具有指导意义和作用。   关键词:高校信息化 数据挖掘 应用研究   中图分类号:TP311.131 文献标识码:A 文章编号:1007-9416(2016)04-0000-00   高校信息化建设高速发展,使得在高校教育信息中产生大量的数据。如何使这些数据为教育教学所用,对于这些问题急需解决,数据挖掘技术是目前对数据处理比较完善的技术,它可以将隐藏在数据背后的有用信息提取出来供人们使用,以此提高质量和效果。   1 数据挖掘的定义及挖掘步骤   1.1 数据挖掘的定义   数据挖掘(Data mining),又称为信息勘探、数据采掘。其实质就是从大量的数据中通过多种算法搜索隐藏于其中有用信息的过程。数据挖掘也有学者将其称之为知识发现(Knowledge Discovery in Database,以下简写为“KDD”)。而在学术领域,学者们对“数据挖掘”和“知识发现”这两个概念的内涵和外延一直缺乏比较明晰的界定,直到1996年,数据挖掘研究专家Usama Fayyad等在KDD国际会议上对上述两个术语进行了定义及区分:所谓知识发现(KDD)是指数据库中知识发现的全过程,而数据挖掘仅仅是知识发现(KDD) 过程中的一个特定步骤,即数据挖掘包含于知识发现过程中,属于从属关系。   1.2 数据挖掘步骤   (1)确定挖掘对象、目标。确定挖掘对象便于后面数据采集,明确目标便于分析。建立分析的先决条件是对问题和目标的清晰描述。本文中的挖掘对象是信息技术系2013级计算机应用技术专业学生《网页设计》课程成绩,挖掘目标是影响《网页设计》课程成绩的因素有哪些,为作者及带同一门课的教师提供参考依据。(2)数据的收集。根据数据分析对象,从数据分析中提取特征信息,选择适合的方法采集数据并将采集的数据输入到数据库。这个阶段是一个量大的工作,并占用了大量的时间。本文中的成绩数据通过学院“学生成绩管理系统”获得,其他数据通过调查表获得。(3)数据预处理。接下来清理收集数据。由于数据库中的数据一般是不完整的、噪声的和不一致的,为了确保数据的完整性需要将这些数据清理出去。(4)数据转换。为了更好的建立适合挖掘算法的分析模型需要对数据进行转换。(5)分类挖掘知识和信息、选择合适的技术和算法在处理和转换后的数据集中进行数据挖掘,通过合适的编程语言实现算法,其目的是确定分类模型。(6)知识的表示――生成分类规则。知识的表示最终的目的是生成分类规则,通过获取的信息进行解释和评价。(7)知识的应用。将生成的分类规则应用到实际工作中以促进和提高工作质量。   2 数据挖掘常用的方法   2.1 统计分析法   数据挖掘涉及到多个科学领域,统计领域就是其中一个。统计分析法(statistical analysis method)是数据挖掘中的基本技术,其方法是从总体当中选取样本,通过对样本的分析获取样本数据的内在特征,并由其推断总体特征的一种方法。统计分析方法的思想是在数据集中假设一个概率模型然后根据模型采用相应的方法进行挖掘。此方法的特点是结果精准且易于理解。   2.2 关联规则法   数据挖掘中的一个重要内容是关联规则法(Association Rules),关联规则对数据挖掘的主要思想是:在数据库中发现N(N=2)个变量之间的规律。关联可以分为简单关联(Simple correlation)、因果关联(Causal association)、时序关联(Temporal association)。关联规则法在现实中比较实用。   2.3 决策树法   决策树(Decision Tree)法是数据挖掘中常用的方法之一,决策树使用概率论原理,它用树形图来描述挖掘结果。决策树由树根、树枝、树叶、概率值、损益值。决策树的构建方法是通过样本数据集进行计算后构建决策树模型,通过决策树模型提取分类规则,最终形成人们易于理解的规则结果。本论文研究过程使用的就是决策树法,在后面着重介绍决策树法及它的常用算法。   2.4 神经网络法   神经网络(Neural Network)体现了数据挖掘多学科交叉的特点。它是非线性动力学系统,特色是信息的分布式存储和并行协同处理。神经网络法主要研究方面是人工神经网络、网络模型和理论模型的建立。神经网络法的特点是高度并行性、泛化能力等,常用于医学、生物学等领域。   3 数据挖掘在高校信

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档