浅谈数据挖掘技术在学校教学中应用.docVIP

浅谈数据挖掘技术在学校教学中应用.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅谈数据挖掘技术在学校教学中应用

浅谈数据挖掘技术在学校教学中应用摘要:随着数字化和信息化的不断发展,传统的教学模式已经无法满足现代教育发展的需求,搜集、整理大量教学数据信息需要新方法和新思路,传统方法不仅消耗时间精力,操作也十分繁琐,因此数据挖掘技术逐渐出现在人们的视线中。该文通过对数据挖掘技术进行分析,针对数据挖掘技术在学校教学过程中的应用提出一些个人观点。 关键词:学校教学;数据挖掘技术;应用 中图分类号:G632文献标识码:A文章编号:1009-3044(2012)17-4177-03 1数据挖掘技术 数据挖掘始于上世纪90年代,是一门发展速度较快的交叉学科,数据挖掘技术包括人工智能、神经网络、数理统计、模式识别、数据库、粗糙集等技术学科,数据挖掘能够从大量数据中挖掘到隐含的、未知的、用户可能感兴趣的、对决策存在潜在价值的知识及规则,数据挖掘过程又称为知识发现,基本功能主要为分类、估计、预测、关联分组、聚类、建档、描述等。数据挖掘的对象较多,主要包括数据库、图像等各种结构化和非结构化的信息、文本等,有时无法直接对其进行分析,因此要通过以下步骤进行:第一,选择数据。数据挖掘过程中所有需要的数据来源可能都不相同,可以通过不同的异数数据源来获取数据;第二,预处理。在初始数据中,会有一些不符合形式处理或是出现偏差的例外,因此要对这些数据进行修正和剔除,为后期数据处理的正确性奠定基础;第三,变换。将不同数据源获得的数据转换为同一种格式,可以利用编码或是其他一些方式来简化表示形式;第四,数据挖掘。利用数据挖掘算法,对变换之后的数据进行挖掘并产生期望的挖掘结果;第五,解释或评价。将数据挖掘之后的结果用适当的方式移交给用户。 数据挖掘技术的应用十分广泛,在电信业、农业、工业、金融业等各个领域都得到了广泛的应用。数据挖掘方法主要为关联规则、决策树、聚类分析以及遗传算法、神经网络等,关联规则和决策树是使用频率最多、范围最广的两种方法。关联规则是数据挖掘最先研究的问题之一,也是数据挖掘中最成熟、最主要的分析方法之一,能够揭示出数据之间的隐含关系。关联规则首先要对数据库中的一组对象进行关系分析,然后通过置信度和支持度来进行筛选,最后得出被认为具有价值的事实或是规律,例如购物篮的分析中,通过对销售数据的分析发现一些客户的购物习惯及规律。利用关联规则最经典的是由R . Agrawal , Hnielinski , Swam等人在1994年提出的Apriori算法,在生成特定关系候选项目集的基础之上,对数据库进行扫描,并确定候选项目是否满足要求。 决策树算法主要用来解决分类问题,通过对数据进行归纳和学习,将分类过程在构建的一棵树上进行建模,完成后,便能够应用在数据库中的元组得到分类结果,树中每一个内部节点都表示了一个属性值的检验,分支便表示检验结果,树的叶节点代表类别。 通过上文的分析可知,数据挖掘技术具有以下特点:第一,数据处理规模较大;第二,挖掘出的知识无法预知;第三,在发现潜在规则的基础上,要维护并管理规则;第四,规则的发现是在大样本统计规律的基础之上,且当置信度达到某一标准时,便认为规则成立。 2常用的数据挖掘技术 2.1关联规则 关联规则是指各个数据项之间相互依存的关系,发现规则的任务为从数据库中发现一些置信度、支持度大于定阈值的强关联规则,在大型数据库中,每个字段之间都存在着多种多样的关系,且都隐藏在数据库包含的信息中,关联规则的目的即为找出数据项之间隐藏关系。用来描述关联规则挖掘问题的数据模型为:令I={i1,i2,i3,……,in}为属性可能取值,也称为数据项集,模型中ik(1≤i≤n)为数据项,I中的元素个数即为数据项集的长度,如果长度为n的数据项集,便成为n维数据项集(n-Item-set)。例如关联规则的蕴含式为X→Y,且X,Y包含于1,且X∩Y=ψ,则规则X→Y在事务集合D中成立。一般情况下,用置信度和支持度来描述规则属性:置信度指如果D中包括C%的X事务,且同时也包括Y,则C是关联规则X→Y的置信度,置信度即为出现了数据项集X的事务中,Y相集同时出现的改了,置信度C%=The number of Transactions(X∩Y)/The number of Transaction(X)。换言之,只要数据库中出现了X,那么Y出现的可能先变为C%;支持度指如果D中有S%的事务既包括数据项集X,也包括数据项集Y,那么S%即为关联规则X→Y的支持度,支持度S%=The number of Transactions(X∩Y)/The number of Transactions(D)。支持度越大,便说明X和Y在数据库中出现的机会越大。本着发现有意义关联规则的原则,需要给出两个阈值——最小支持度和最小置信度

文档评论(0)

docman126 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7042123103000003

1亿VIP精品文档

相关文档