公务员写作nty数据挖掘规则更新计算机.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
公务员写作nty数据挖掘规则更新计算机

数据挖掘规则更新计算机 一、数据库中数据挖掘的基本定义及定理 在计算机数据库的数学墨镜建立过程中,可以将数据分为项目数据与事务数据,其中项目数据代表的是某种物品,而事务数据代表的是动作。假设项目集合为I={i1,i2,i3,……,im},事务集合为D,T是集合D中的非空子集,代表某一组物品,此时必然满足条件T∈I。下面将根据上述的数学因子来解释数据库中关联规则如何被挖掘。 (一)关联规则的内涵 以超市的销售情况为例,我们假设数据库内为超市门店的详细交易数据,任意一次交易的事务t是商品集合I的子集,而关联规则在事务集合D的支持度代表的是在子事务中同时包含了事务元素X与Y的概率;而置信度则是表示含有事务元素X的子事务中同时包含了事务元素Y的条件概率。根据超市门店销售人员对消费者购买商品的市场了解需求,可以制定出相应的支持度与置信度的最小阈值,此时,利用数据库即可找出符合销售人员需要了解的商品之间的关联规则。 (二)相关定义 定义1:若项目集X包含于T,那么我们可以认为事务T支持X;定义2:若事务集D中存在s%的事务支持项目集X,则称项目集X的支持度为s%,并记为sup(X);定义3:当支持度不小于数据库用户所定义的最小支持度阈值min_sup时,称该项目集为繁荣项目集;当支持度小于数据库用户定义的最小支持度阈值min_sup时,称该项目集为非繁荣项目集,其中项目集中的项目数量成为项目集的长度或维度;定义4:关联规则可以用如下的蕴含形式表示:X→Y,X、Y∈I,并且X∩Y=Ф;定义5:若X→Y的关联规则在事务集合D内支持度为s%,如果项目集(X∪Y)具有大小为s%的支持度,则存在support(X→Y)=P(X∪Y)。定义6:若X→Y的关联规则在事务集合D内支持度为c%,如果事务集D内有c%的事务支持项目集(X∪Y),则存在confidence(X→Y)=P(X∪Y)/P(X);定义7:设集合S全部由繁荣集构成,那么将S的否定边界记做Bd-(S),符合如下等式:Bd(S)={X|XS,|x|=1}Y{X|任意Y属于X,Y∈S,且XS},也就是说集合S的否定边界包含了所有本身不是繁荣集但子集全是繁荣集的事务集合,以及所有不是繁荣集的单个因子。 (三)相关定理 针对繁荣集与非繁荣集的关系,也存在以下定理:定理1:繁荣集一定是由繁荣集组成(子集概念);定理2:非繁荣集的子集一定是非繁荣集。 二、挖掘关联规则过程中的问题分析 关联规则初次生成中的问题数据库关联规则的挖掘过程可分为两部分,首先,需要找出一个繁荣项目集,该集合内所有因子的支持度均大于给定的支持度最低阈值;接下来一步,就是从此繁荣项目集中挖掘出关联规则,当该规则满足可信度条件conf≥min_conf时,该规则即为用户所需规则。算法的挖掘效能高低主要由发掘符合支持度的繁荣项目集决定,第二步的算法主要为判别过程,耗费时间短,因此数据发掘关联规则算法的研究焦点对准了繁荣项目集的发现。已有的算法主要是以重复多次扫描为主,不仅做法复杂,而且效率较低。在事务D数据库中,参数可信度c和参数支持度s对关联规则影响较大,一旦用户定义的支持度s发生改变,繁荣集和信任度也会发生改变,最终引起关联规则的变化。 三、更新关联规则的算法 (一)关联规则更新的数学建模 假设用户原定义的支持度最小阈值为s,用户新定义的支持度最小阈值为s,那么更新关联规则可以分为以下两种情况:(1)当s>s时,由于前一次产生的繁荣集合为Apriori算法求得,那么根据该算法的定义可知,任意一个的繁荣集均存在一个标记属性count记录符合条件的事务元素个数,当新的支持度大于原有支持度时,可以使用原繁荣集的count值排除不符合新要求的繁荣集;(2)当s<s时,那么前一次产生的繁荣集是否能够满足新定义支持度阈值而成为繁荣集则需要因情况而定,甚至衍生新的繁荣集。根据上述的定理2不难发现,当用户新给出的支持度阈值s小于原有的s时,原来繁荣集中的所有元素组成的几何仍旧为繁荣集,但是此时的S否定边界Bd(S)中的部分元素则可能满足条件而成为满足新支持度的繁荣集元素。根据这个原理,在前一次已生成的关联规则上,适当更新算法,即可避免重复的扫描过程,明显降低重新计算时的工作量。当支持度最小阈值降低时,非繁荣集的否定边界集合中部分元素可能转换为繁荣集元素,当且仅当所有子集均为繁荣集时,父集才是繁荣集。所以在进行数据挖掘过程中,只有当否定边界集元素满足新输入的支持度s时,该元素才有可能从非繁荣集转入繁荣集。接下来,需要使用可信度做进一步的验证,而非繁荣集中的元素由于不满足新支持度s,因此不需要进行再次验证。重新定义条件与求解内容:条件:数据库DB

文档评论(0)

jiqingyong12 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档