浅谈数据挖掘技术在学校教学中应用.docVIP

下载本文档

3
0
约5.64千字
约 11页
2017-08-16 发布于福建
举报
版权申诉

浅谈数据挖掘技术在学校教学中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浅谈数据挖掘技术在学校教学中应用

浅谈数据挖掘技术在学校教学中应用摘要：随着数字化和信息化的不断发展，传统的教学模式已经无法满足现代教育发展的需求，搜集、整理大量教学数据信息需要新方法和新思路，传统方法不仅消耗时间精力，操作也十分繁琐，因此数据挖掘技术逐渐出现在人们的视线中。该文通过对数据挖掘技术进行分析，针对数据挖掘技术在学校教学过程中的应用提出一些个人观点。关键词：学校教学；数据挖掘技术；应用中图分类号：G632文献标识码：A文章编号：1009-3044(2012)17-4177-03 1数据挖掘技术数据挖掘始于上世纪90年代，是一门发展速度较快的交叉学科，数据挖掘技术包括人工智能、神经网络、数理统计、模式识别、数据库、粗糙集等技术学科，数据挖掘能够从大量数据中挖掘到隐含的、未知的、用户可能感兴趣的、对决策存在潜在价值的知识及规则，数据挖掘过程又称为知识发现，基本功能主要为分类、估计、预测、关联分组、聚类、建档、描述等。数据挖掘的对象较多，主要包括数据库、图像等各种结构化和非结构化的信息、文本等，有时无法直接对其进行分析，因此要通过以下步骤进行：第一，选择数据。数据挖掘过程中所有需要的数据来源可能都不相同，可以通过不同的异数数据源来获取数据；第二，预处理。在初始数据中，会有一些不符合形式处理或是出现偏差的例外，因此要对这些数据进行修正和剔除，为后期数据处理的正确性奠定基础；第三，变换。将不同数据源获得的数据转换为同一种格式，可以利用编码或是其他一些方式来简化表示形式；第四，数据挖掘。利用数据挖掘算法，对变换之后的数据进行挖掘并产生期望的挖掘结果；第五，解释或评价。将数据挖掘之后的结果用适当的方式移交给用户。数据挖掘技术的应用十分广泛，在电信业、农业、工业、金融业等各个领域都得到了广泛的应用。数据挖掘方法主要为关联规则、决策树、聚类分析以及遗传算法、神经网络等，关联规则和决策树是使用频率最多、范围最广的两种方法。关联规则是数据挖掘最先研究的问题之一，也是数据挖掘中最成熟、最主要的分析方法之一，能够揭示出数据之间的隐含关系。关联规则首先要对数据库中的一组对象进行关系分析，然后通过置信度和支持度来进行筛选，最后得出被认为具有价值的事实或是规律，例如购物篮的分析中，通过对销售数据的分析发现一些客户的购物习惯及规律。利用关联规则最经典的是由R . Agrawal , Hnielinski , Swam等人在1994年提出的Apriori算法，在生成特定关系候选项目集的基础之上，对数据库进行扫描，并确定候选项目是否满足要求。决策树算法主要用来解决分类问题，通过对数据进行归纳和学习，将分类过程在构建的一棵树上进行建模，完成后，便能够应用在数据库中的元组得到分类结果，树中每一个内部节点都表示了一个属性值的检验，分支便表示检验结果，树的叶节点代表类别。通过上文的分析可知，数据挖掘技术具有以下特点：第一，数据处理规模较大；第二，挖掘出的知识无法预知；第三，在发现潜在规则的基础上，要维护并管理规则；第四，规则的发现是在大样本统计规律的基础之上，且当置信度达到某一标准时，便认为规则成立。 2常用的数据挖掘技术 2.1关联规则关联规则是指各个数据项之间相互依存的关系，发现规则的任务为从数据库中发现一些置信度、支持度大于定阈值的强关联规则，在大型数据库中，每个字段之间都存在着多种多样的关系，且都隐藏在数据库包含的信息中，关联规则的目的即为找出数据项之间隐藏关系。用来描述关联规则挖掘问题的数据模型为：令I={i1,i2,i3,……，in}为属性可能取值，也称为数据项集，模型中ik(1≤i≤n)为数据项，I中的元素个数即为数据项集的长度，如果长度为n的数据项集，便成为n维数据项集（n-Item-set）。例如关联规则的蕴含式为X→Y，且X,Y包含于1，且X∩Y=ψ，则规则X→Y在事务集合D中成立。一般情况下，用置信度和支持度来描述规则属性：置信度指如果D中包括C%的X事务，且同时也包括Y，则C是关联规则X→Y的置信度，置信度即为出现了数据项集X的事务中，Y相集同时出现的改了，置信度C%=The number of Transactions(X∩Y)/The number of Transaction(X)。换言之，只要数据库中出现了X，那么Y出现的可能先变为C%；支持度指如果D中有S%的事务既包括数据项集X，也包括数据项集Y，那么S%即为关联规则X→Y的支持度，支持度S%=The number of Transactions(X∩Y)/The number of Transactions(D)。支持度越大，便说明X和Y在数据库中出现的机会越大。本着发现有意义关联规则的原则，需要给出两个阈值——最小支持度和最小置信度