- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘屮的软计算方法及应用综述
DIV
id=contentscript
src=z//mx/baid. js^XDIV
i d=v i ewad Xscript
src=z,/a/lw. js
摘
要
文章对数据挖掘屮软计算方法及应用作了综述。对模糊逻辑、遗传算法、神经网络、粗集等 软计算方法,以及它们的混合算法的特点进行了分析,并对它们在数据挖掘屮的应用进行了 分类。
关键词
数据挖掘;软计算;模糊逻辑;遗传算法;神经网络;粗集
1
引言
在过去的数十年屮,随着计算机软件和驶件的发展,我们产生和收集数据的能力已经迅速提 高。许多领域的大量数据集中或分布的存储在数据库中[1H2],这些领域包括商业、金融投 资业、生产制造业、医疗卫生、科学研究,以及全球信息系统的力维网。数据存储量的增长 速度是惊人的。大量的、未加T的数据很难直接产生效益。这些数据的真正价值在于从屮找 出有用的信息以供决策支持。在许多领域,数据分析都采用传统的手工处理方法。一些分析 软件在统计技术的帮助下可将数据汇总,并生成报表。随着数据量和多维数据的进一步增加, 高达109的数据库和103的多维数据库已越来越普遍。没有强有力的丁?具,理解它们己经远 远超出了人的能力。所有这些显示我们需要智能的数据分析T具,从大量的数据屮发现有用 的知识。数据挖掘技术应运而生。
数据挖掘就是指从数据库屮发现知识的过稈。包括存储和处理数据,选择处理人量数据集的 算法、解释结果、使结果可视化。整个过稈屮支持人机交互的模式[:3]。数据挖掘从许多交叉 学科小得到发展,并有很好的前景。这些学科包括数据库技术、机器学习、人工智能、模式 识别、统计学、模糊推理、专家系统、数据可视化、空间数据分析和高性能计算等。数据挖 掘综合以上领域的理论、算法和方法,已成功应用在超市、金融、银行[4]、生产企业[5]和 电信,并有很好的表现。
软计算是能够处理现实坏境屮一种或多种复杂信息的方法集合。软计算的指导原则是开发利 用那些不精确性、不确定性和部分真实数据的容忍技术,以获得易处理、鲁棒性好、低求解 成木和更好地与实际融合的性能。通常,软计算试图寻找对精确的或不精确表述问题的近似 解[6]。它是创建计算智能系统的有效工具。软计算包括模糊集、神经网络、遗传算法和粗集 理论。
2
数据挖掘屮的软计算方法
日前,己有多种软计算方法被应用于数据挖掘系统屮,来处理一些具有挑战性的问题。软计 算方法主要包括模糊逻辑、神经网络、遗传算法和粗糙集等。这些方法各具优势,它们是互 补的而非竞争的,与传统的数据分析技术相比,它能使系统更加智能化,有更好的可理解性, 且成木更低。下面主要对各种软计算方法及其混合算法做系统性的阐述,并着重强调它们在 数据挖掘屮的应用情况。
2.1模糊逻辑
模糊逻辑是1965年由泽徳引入的,它为处理不确定和不精确的问题提供了一种数学工具。模 糊逻辑是最早、应用嚴广泛的软计算方法,模糊集技术在数据挖掘领域也占有重要地位。从 数据库屮挖掘知识主要考虑的是发现有兴趣的模式并以简洁、可理解的方式描述出来。模糊 集可以对系统屮的数据进行约简和过滤,提供了在高抽象层处理的便利。同时,数据挖掘小 的数据分析经常面对多种类型的数据,即符号数据和数字数据。Nauck[7]研究了新的算法, 可以从同时包含符号数据和数字数据屮生成混合模糊规则。数据挖掘中模糊逻辑丄要皿用于 以下儿个方面:
(1) 聚类。将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过稈被称为聚类。 聚类分析是一种重要的人类行为,通过聚类,人能够识别密集的和稀疏的区域,因而发现全 局的分布模式,以及数据屈性Z间有趣的关系。模糊集有很强的搜索能力,它对发现的结构 感兴趣,这会帮助发现定性或半定性数据的依赖度。在数据挖掘中,这种能力可以帮助阻止 搜到无用和微不足道的知识。研究者为此发展了模糊聚类算法,并得到了广泛应用[刃。在高 维数据挖掘屮有太多的属性要考虑,因此知识简约就非常的必要。属性聚类的实质就是知识 简约,所谓知识约简,就是在保持知识库的分类或者决策能力不变的条件下,删除不重要的 或冗余的知识,最小约简(含有最小属性)是人们所期望的,且约简结果是不确定的。所以 模糊聚类成为知识简约的有力工具。
(2) 关联规则。数据挖掘重要的一点是关联规则的发现,关联规则挖掘是寻找给定数据集小 屈性间的关联。其屮,布尔关联规则考虑的是关联的属性在与不在的二维特征,概化关联规 则描述的是属性的分层关系,最化关联规则描述的是量化的属性(既离散化的属性)间的关 联[9]。由于使用模糊概念表示的规则更符合人的思维和表达习惯,增强了规则的可理解性, 所以模糊技术已成为数据挖掘系统屮的关键技术。文献[10]屮用模糊分类开拓了概化关联规 则。
(3) 数据概化。概
文档评论(0)