- 1、本文档共2页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于改进型数据挖掘模型的研究.pdf
科学技术
基于改进型数据挖掘模型的研究
奚中阳
(云南财经大学 信息学院,云南 昆明 650221)
摘 要:近年来在人工智能领域极具突出研究价值的是数据挖掘技术。数据挖掘技术就是从大量的无规则的数据 中提取出潜在的人们感兴趣 的知
识 提取出的知识表现形式可以为概念、规则、规律、模式等等 目前数据挖掘算法有许多种,如经典的Aptiori算法,FP—Tree等。而遗传算法 自
1975年 由J.H0lland提出以来,因其结构简单,采用模拟 自然选择,适用于解决非线性问题,对于解决存在大量的无序的数据 中的挖掘,遗传算法有
独特的优势。本文基于遗传算法的优势,采用遗传算法进行关联规则的挖掘。
关键词:数据挖掘 ;关联规则; 遗传算法
1相关概念 占的比例。
1.1关联规则 一 个项集是否频繁项集的唯一标准是:项集的支持度要大于用户
关联 规则 是用来 发现 一组数据 中同时发生 的概 率。假 定 所给的最小支持度闽值 (MinSupp)。因此适应度函数中最好包含项集的
I= {Jl,/2… .. }是数据项的集合。给定一个交易数据库D,定义 适应度和MinSupp,最好通过函数计算能分辨出支持度和MinSupp的大
支持度 (support)为D中事务同时包含事件A与事件B的百分比;定义置 小关系。因此拟定群体 中个体适应度函数为:
信度 (confidence)为D中事务在已经包含事件A的情况下,包含Y的百 Fitness(X)=x代:菱项集的支持度 /最小支持度阈值MinSupp。
分比,即条件概率。如果满足设定的最小支持度阈值和最小置信度阈 3.3选择算子、交叉算子、变异算子的确定
值,则认为所得到的规则是潜在有用的。 选择算子最常用的是基于适应度比例的选择,如赌轮选择。而根
1.2关联规则挖掘的过程 据赌轮选择的特点,个体被选中的概率与其适应度 占群体适应度总和
关联规则的挖掘可以分为两部分: 的比例成正 比,那么就有可能出现这样一种情况:初始群体中少数适
(1)找出所有频繁项集:即找出所有支持度大于设定的最小支持度 应度较大的超级个体,在下一代中会得到较高的复制概率,它们在随
闽值的项 目集 。 后进化的少数几代 内将会统治整个群体。赌轮选择在进化开始时的选
(2)由频繁项集产生强关联规则:即通过第一步中得到的频繁项集 择压力过大是导致遗传算法早熟的一个主要原因。另外,当进化终了
中选取置信度大于给定的最小置信度阆值。 时,同一群体 中不同个体之间的适应度差异变得很小,其选择概率相
近,使得选择趋于随机选择,可能使遗传算法失去进化能力。具体对
1.3遗传算法
于关联规则的挖掘,两个适应度很高的个体,未必会繁殖出一个高适
遗传算法是一种模拟生物优胜劣汰 自然选择与遗传机理的随机搜
应度的个体。所以,虽然赌轮盘选择是遗传算法中非常常用的一种选
索算法。相比于传统的搜索算法,遗传算法随机产生一组称为种群的初
择算子,但并不适合于本文的问题求解 。
始解。种群中的每个个体都是问题中的一个解,称为染色体。染色体通
因此拟采用的选择操作是将适应度值大于l的规则都遗传下来,也
过不断的选择,交叉,变异等操作产生
文档评论(0)