基于关联规则数据库知识发现及应用.docVIP

下载本文档

4
0
约3.9千字
约 8页
2018-06-01 发布于福建
举报
版权申诉

基于关联规则数据库知识发现及应用.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于关联规则数据库知识发现及应用

基于关联规则数据库知识发现及应用　　[摘要] 随着数据在日常决策中的重要性越来越显著，人们对数据处理技术的要求也不断提高，需要对数据进行更深层次的处理，以得到关于数据的总体特征以及对发展趋势的预测。本文介绍了数据库知识发现及关联规则,最后将二者结合应用于教学中，进而实现客观地、科学地教学评估与知识发现，指导学校的教学工作。　　[关键词] 知识发现数据库知识发现关联规则　　　　一、知识发现　　随着数据在日常决策中的重要性越来越显著，人们对数据处理技术的要求也不断提高，需要能够对数据进行更深层次的处理，以得到关于数据的总体特征以及对发展趋势的预测。过去，人们依靠经验、大量的计算和人脑的智慧来处理这些深层次的信息，为决策提供技术支持。然而数据量爆炸性的增长使得传统的手工处理方法逐渐变得不切实际了，现在的用户很难再像从前那样，???己根据数据的分布找出规律，并根据此规律进行分析决策。而且对于超市商品的销售记录、保险公司的客户记录、医学上的成千上万份病历等等的这些天体数据来说，如果由手工处理的话需要几十个人几年时间，而且由于数据的繁杂，在由人工对数据进行处理过程中，很难找出关于数据较为全面的信息，这样许多有用的信息仍然隐含在数据中而不能被发现和利用，造成数据资源的浪费，更无法体现出信息的时间效应。由此便迫切需要采用自动化程度高、效率好的数据处理方法来帮助人们更高效地进行数据分析，自动发现数据中隐藏的规律或模式，为决策提供支持。知识发现(Knowledge Discovery in Databases，简称KDD)就是为迎合这种要求而产生并迅速发展起来的一门技术，它是用于开发信息资源的一种新的数据处理技术。　　许多专家都给出了知识发现的定义，最新的、在KDD领域一致认可的描述性定义是Fayyad等人给出的：KDD是从数据集中识别出有效的、新颖的、潜在有用的，以及最终可理解的模式的非平凡过程。　　知识发现过程可粗略的理解为三部曲:数据准备(data preparation）、数据挖掘，以及结果的解释评估（interpretation and evaluation）(如图1所示)。　　数据准备阶段的工作包括3个方面的内容: 　　1.数据选取，主要是确定目标数据一一根据用户需要从原始数据库中抽取一组感兴趣的数据，并将其组织成适合挖掘的数据组织形式。　　2.数据预处理，也叫数据清洗，主要包括如下工作要做:消除噪音数据(这里提及的噪音数据是指那些明显不符合逻辑的偏差数据，如某职员200岁，这样的数据往往影响挖掘结果的正确性。目前讨论最多的处理噪音数据的方法是数据平滑(Data smoothing)技术、推导计算缺值数据、消除重复记录、完成数据类型转换等。　　3.数据变换，主要是指对数据进行降维处理。数据挖掘阶段是根据挖掘的任务或目的使用具体的挖掘算法对准备好的数据集进行知识发现。这些知识是隐含的、先前未知的、对决策有潜在价值的，提取的知识表示为概念(Concepts)、规则(Rules)、规律(Regularities)和模式(Patterns)等形式。这些规则蕴含了数据库中一组对象之间的特定关系，揭示出一些有用的信息，为经营决策、市场策划和金融预测等提供依据。例如，从超级商场的大量交易数据中发现，顾客购买牛奶时通常也同时会购买面包，如果将这两种食品放在同一货架上或同时进行广告宣传，肯定会大大提高销售量。通过数据挖掘技术，有价值的知识、规则或高层次的信息就能从数据库的相关数据集合中抽取出来，并从不同角度显示，从而使大型数据库作为一个丰富可靠的资源为知识归纳服务。　　最后一阶段是对于挖掘出来的模式进行解释和评价，剔除冗余或无关的模式，将结果展现给用户。　　二、关联规则　　关联规则也称为关联模式，是美国BIM Almaden Research Center的R.Agrawal等人于1993年提出的，是数据挖掘研究中的一个重要课题。关联规则是指大量数据中项集之间有趣的关联或相关联系。关联规则发现的对象主要是事务数据库，例如售货数据，也称为货篮数据。它是描述一个事务中物品之间同时出现的规律的知识模式。用D表示全体事务的集合。用I代表D中所有数据项(物品)的集合。假设有一个物品集A，一个事务T，如果AT，则称事务T支持物品集A。关联规则是一种蕴含关系:A=B，其中A，B是两组物品，AI，BI，且A∩B=φ。衡量规则优劣的指标有二: 　　1.支持度(Support)。它是对A=B的重要性(或适用范围)的衡量，集合D中规则A=B的支持度定义为物品集A，B同时出现的概率。支持度描述了A和B这两个物品集的并集在所有的事务D中出现的概率有多大。如果某天有1000个顾客到商场购买物品，其中有100个顾客同时