一种新的模糊规则权重方法的数据分类的研究.pdfVIP

  • 14
  • 0
  • 约4.66万字
  • 约 42页
  • 2019-06-09 发布于江苏
  • 举报

一种新的模糊规则权重方法的数据分类的研究.pdf

第1章绪论 气推进实验室与天文科学家合作开发的用于帮助天文学家发现遥远类星体的一个 工具。SKICAT的任务是构造星体分类器对星体进行分类,使结果能分辨的星体在 亮度上较以前方法低一个数量级以上,而且新的方法比以往方法的效率要高40倍 以上。在商业应用领域,银行或商业上经常发生诈骗行为,这方面应用非常成功 的系统有信用卡欺诈估测系统【18】,它已被大量零售银行用于探测可疑信用卡交易。 此外,在医疗诊断f19J、风险管理【2们、文本分类【2ll等方面也有广泛的应用。 针对分类问题的研究使人们对现实生活的认识又进入一个新的层次。目前分 类问题的研究主要集中在:(1)分类问题算法的效率及扩展性【17】,当今由于数据产 生和收集技术的进步,大规模数据越来越普遍,即分类算法的运行时间必须是可 预见的并且是可接受的。(2)处理高维数据的分类算法【17】,当前所储存的数据维数 越来越多,特别是在生物信息学领域,随着微阵列技术的进步,产生了涉及数千 特征的基因表达数据,开发能够处理高维数据的分类算法具有相当的紧迫性和必 要性。(3)非平衡数据的分类与预测,典型的分类器被设计为使整体准确率最高, 而不考虑每个类的相对分布情况,非平衡数据给这类典型的分类器提出了挑战。 1.2分类问题的发展历史 数据挖掘的诞生可追溯到20世纪80年代,1989年8月在美国底特律召开的 第11届国际人工智能联合会议,举行了数据库中知识发现的专题讨论(KDD KDD Workshop。在这些讨论会的基础上,美国计算机学会成立了知识发现和数据 挖掘专业委员会SIGKDD,并与1995年在加拿大蒙特利尔召开了第一届知识发现 与数据挖掘国际学术会议。数据挖掘技术主要包括关联规则发现、分类、聚类分 析、泛化和预测等。 分类作为数据挖掘技术的一个分支,已经取得了明显的效果,涌现了大量处 理平衡数据的分类问题的研究,如基于决策树的分类方法在大规模数据库条件下 据库快速分类算法的研究;Owen,A.B.(1999)1251对分类与回归的管状邻域研究; 一种新的模糊规则权重方法的数据分类的研究 概念树,也可以以一种学习后的分类网格等形式表示出来,许多技术都可以应用 到分类应用中。最为典型的分类方法是基于决策树[271的分类方法。它从实例中构 造决策树,是一种有指导的学习方法。该方法先根据训练子集(又称为窗口)形成 决策树,如果该树不能对所有对象给出正确的分类,那么选择一次而另外加入到 窗口中,重复该过程一直到形成正确的决策集。最终的结果是一棵树,其叶节点 是类名,中间节点是带有分支的属性,该分支对应该属性的某一可能值。最为典 型的决策树学习系统是ID3,它采用自顶向下不回溯策略,能保证找到一个简单的 树。之后的改进算法包括ID4、ID5、C4.5、C5.0等。贝叶斯分类来源于概率统计 学,并且在机器学习中得到很好的研究。朴素贝叶斯分类具有坚实的理论基础, 和其他分类方法比,理论上具有较小的出错率。但是,由于受其应用假设的准确 性设定的限制,所以需要在提高和验证它的适应性等方面作进一步研究。随着研 究的深入,类比学习得到了广泛的应用,最典型的类比学习方法是K近邻方法, 它属于懒散学习法,相比决策树等急切学习法,具有训练时间短但分类时间长的 特点。其他方法还有粗糙集、模糊集方法等。模糊性是客观存在的,按照Zadeh 的互克性原理,系统的复杂性越高,精确化能力就越低,也就意昧着模糊性越强。 利用模糊集合理论可以通过模糊推理和分析来达到发现有用知识的目的。 鉴于解决非平衡数据分类问题有着很深远的意义,因此国内外研究者对该问 题进行了大量的研究。相关研究[10,28,29】主要围绕以下3个方面展开:(1)改变数据的 分布(数据层面);(2)设计新的分类方法(算法层面);(3)设计新的分类器性能 评价准则(判别准则)。目前,模糊理论在非平衡数据分类问题中的应用得到越来 越多学者的关注,如何构建初始规则集是设计模糊分类系统的关键。国内外学者 为此进行了深入而广泛的研究:将神经网络应用于模糊分类规则集的产生、通过 聚类算法生成模糊规则、群体智能和遗传算法对模糊分类规则集的优化、将规则 编码为粒子,应用粒子群优化算法进行分类规则的提取、模糊分类规则的权值启 RuleBasedClassification 发算法等等。其中基于模糊规则的分类系统Dol(Fuzzy 面:(1)构建

文档评论(0)

1亿VIP精品文档

相关文档