- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘中的软计算的方法及应用综述
数据挖掘中的软计算方法及应用综述
摘 要 文章对数据挖掘中软计算方法及应用作了综述。对模糊逻辑、遗传算法、神经网络、粗集等软计算方法,以及它们的混合算法的特点进行了分析,并对它们在数据挖掘中的应用进行了分类。 关键词 数据挖掘;软计算;模糊逻辑;遗传算法;神经网络;粗集1 引言 在过去的数十年中,随着计算机软件和硬件的发展,我们产生和收集数据的能力已经迅速提高。许多领域的大量数据集中或分布的存储在数据库中[1][2],这些领域包括商业、金融投资业、生产制造业、医疗卫生、科学研究,以及全球信息系统的万维网。数据存储量的增长速度是惊人的。大量的、未加工的数据很难直接产生效益。这些数据的真正价值在于从中找出有用的信息以供决策支持。在许多领域,数据分析都采用传统的手工处理方法。一些分析软件在统计技术的帮助下可将数据汇总,并生成报表。随着数据量和多维数据的进一步增加,高达109的数据库和103的多维数据库已越来越普遍。没有强有力的工具,理解它们已经远远超出了人的能力。所有这些显示我们需要智能的数据分析工具,从大量的数据中发现有用的知识。数据挖掘技术应运而生。 数据挖掘就是指从数据库中发现知识的过程。包括存储和处理数据,选择处理大量数据集的算法、解释结果、使结果可视化。整个过程中支持人机交互的模式[3]。数据挖掘从许多交叉学科中得到发展,并有很好的前景。这些学科包括数据库技术、机器学习、人工智能、模式识别、统计学、模糊推理、专家系统、数据可视化、空间数据分析和高性能计算等。数据挖掘综合以上领域的理论、算法和方法,已成功应用在超市、金融、银行[4]、生产企业[5]和电信,并有很好的表现。 软计算是能够处理现实环境中一种或多种复杂信息的方法集合。软计算的指导原则是开发利用那些不精确性、不确定性和部分真实数据的容忍技术,以获得易处理、鲁棒性好、低求解成本和更好地与实际融合的性能。通常,软计算试图寻找对精确的或不精确表述问题的近似解[6]。它是创建计算智能系统的有效工具。软计算包括模糊集、神经网络、遗传算法和粗集理论。2 数据挖掘中的软计算方法 目前,已有多种软计算方法被应用于数据挖掘系统中,来处理一些具有挑战性的问题。软计算方法主要包括模糊逻辑、神经网络、遗传算法和粗糙集等。这些方法各具优势,它们是互补的而非竞争的,与传统的数据分析技术相比,它能使系统更加智能化,有更好的可理解性,且成本更低。下面主要对各种软计算方法及其混合算法做系统性的阐述,并着重强调它们在数据挖掘中的应用情况。2.1 模糊逻辑 模糊逻辑是1965年由泽德引入的,它为处理不确定和不精确的问题提供了一种数学工具。模糊逻辑是最早、应用最广泛的软计算方法,模糊集技术在数据挖掘领域也占有重要地位。从数据库中挖掘知识主要考虑的是发现有兴趣的模式并以简洁、可理解的方式描述出来。模糊集可以对系统中的数据进行约简和过滤,提供了在高抽象层处理的便利。同时,数据挖掘中的数据分析经常面对多种类型的数据,即符号数据和数字数据。Nauck[7]研究了新的算法,可以从同时包含符号数据和数字数据中生成混合模糊规则。数据挖掘中模糊逻辑主要应用于以下几个方面: (1)聚类。将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。聚类分析是一种重要的人类行为,通过聚类,人能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间有趣的关系。模糊集有很强的搜索能力,它对发现的结构感兴趣,这会帮助发现定性或半定性数据的依赖度。在数据挖掘中,这种能力可以帮助阻止搜到无用和微不足道的知识。研究者为此发展了模糊聚类算法,并得到了广泛应用[8]。在高维数据挖掘中有太多的属性要考虑,因此知识简约就非常的必要。属性聚类的实质就是知识简约,所谓知识约简,就是在保持知识库的分类或者决策能力不变的条件下,删除不重要的或冗余的知识,最小约简(含有最小属性)是人们所期望的,且约简结果是不确定的。所以模糊聚类成为知识简约的有力工具。 (2)关联规则。数据挖掘重要的一点是关联规则的发现,关联规则挖掘是寻找给定数据集中属性间的关联。其中,布尔关联规则考虑的是关联的属性在与不在的二维特征,概化关联规则描述的是属性的分层关系,量化关联规则描述的是量化的属性(既离散化的属性)间的关联[9]。由于使用模糊概念表示的规则更符合人的思维和表达习惯,增强了规则的可理解性,所以模糊技术已成为数据挖掘系统中的关键技术。文献[10]中用模糊分类开拓了概化关联规则。 (3)数据概化。概化发现是数据挖掘重要部分之一。它将大的数据集从较低的概念层抽象到较高的概念层,用可理解的信息来表达数据库中最重要的部分,并提供给用户。大数据集的语言概化通过有效的程度来获得,参考的标准内容在挖掘任务中。系统由概述、一致性程度真实和有效性组成。已经发现的最有
您可能关注的文档
- 基于移动数据库技术的的气象信息服务系统.doc
- 基于纹理特征的图像的分类识别.doc
- 基于组合分类器的信的用卡欺诈识别研究.doc
- 基于结构化P2P的分驳募式数据流系统的查询处理模型.doc
- 基于网格的入侵检测的系统的研究与实现.doc
- 基于网格的面向专业的内容的Web信息检索体系结构.doc
- 基于粗糙集的关联规的则挖掘在餐饮信息化中的应用.doc
- 基于网络信息资源的的有效组织管理与利用.doc
- 基于网络的社科信息的资源分布及检索策略研究.doc
- 基于网络环境下的教的学质量评价体系设计.doc
- 2025年成都市玩偶生产荧光涂鸦互动玩偶开发可行性研究报告.docx
- 2025年成都市海绵生产用于体育馆室外运动场地透水改造可行性研究报告.docx
- 2025年天津市体操鞋企业团建运动应用报告.docx
- 2025年上海市溶洞极限运动(速降)场地开发可行性研究报告.docx
- 2025年上海市涵洞工程施工技术应用可行性研究报告.docx
- 2025年上海市体育场馆设施扎带安全防护可行性研究报告.docx
- 2025年上海市牦牛育肥产业园区建设可行性研究报告.docx
- 2025年旅拍宠物陪伴拍摄项目可行性研究报告.docx
- 2025年上海市进口食品节庆主题快闪店可行性研究报告.docx
- 2025年上海市洗选厂尾矿综合利用产业化可行性研究报告.docx
最近下载
- GB15763.1-2009 建筑用安全玻璃 第1部分:防火玻璃 (2).pdf VIP
- DB5101T 217—2025成都市城市绿化养护技术规程.pdf
- 漫画解读--非煤露天矿山重大事故隐患判定标准.pdf
- 伤口、造口、失禁性皮炎理论考试试题与参考答案.docx VIP
- LNG气化站安装工程施工的方案.doc VIP
- 2023年8月26日全国事业单位联考A类《职业能力倾向测验》真题.pdf VIP
- 跨境电子商务英语 课件 柯可 Unit 1 Overview of Cross-Border E-Commerce、 Unit 2 Main Cross-Border E-Commerce Platforms.pptx
- 2024年辅警招聘《公安工作基本知识》培训考试题库 (附答案).docx VIP
- 低氧对肝脏脂质代谢影响研究.docx VIP
- GB T 34986-2017 产品加速试验方法.doc VIP
文档评论(0)