一种基于云模型的数量型属性划分方法.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种基于云模型的数量型属性划分方法 自文献中提出了相关规则的搜索方法和相应的算法以来,相关规则的搜索一直是数据采集领域的研究热点。在满足最小支持和最小可靠性的情况下,我们是从数据库中收集信息,并收集“客户必须购买牛奶或同时购买食品”的知识。在实际应用中,由于许多数据库数据都是基于计数属性(如工资和年龄),因此计数属性关联规则的研究逐渐成为研究的重点,并提出了一些算法。主要想法是将计数属性的定义域转换为布尔属性,然后使用布尔关联规则挖掘算法。然而,这也是一个明显的问题。即如何划分一个区域来表示区域。在文献中,提出了一个容易映射区域22的问题。 最小支持率问题:如果区间划分过小,会使包含此区间的规则的支持率很低,从而会造成规则产生的数量过少. 最小信任度问题:如果区间划分过大,会使包含此区间的规则的信任度很低,从而造成规则产生的数量过少;同时,区间划分过大,规则所包含的信息量也会相应地减少. 即使在区间的划分上用上面的两个问题进行了平衡,但如何合理、有效地划分属性区间,使其能够真实地反映此属性中数据在定义域中的实际分布则是采掘数量型属性关联规则的关键问题. 为此,许多文献提出了不同的解决方法.文献提出了最为简单的方法,即将属性区间等分.但这种方法不能反映实际的数据分布,它完全靠人为的方法进行区间定义,因此得到的关联规则可能没有什么实际意义,而有意义的关联规则却可能因为区间的划分不合理而无法得到.文献提出的方法是先将定义域分割成非常小的区间,然后将相邻小区间(交易数小于c*Save)逐步合并成有意义的大区间(交易数大于c*Save),但由于合并方式不惟一,从而可能得到不同的划分结果,并且最终的结果仍然是一种硬划分.文献提出了一种基于距离进行区间划分的方法,虽然得到的结果较好,但和文献一样,仍然没有摆脱硬划分的束缚.文献提出了在不减少信息丢失的情况下进行区间合并的方法,但由于这种方法涉及多个属性之间的关系,因此实际可操作性较小. 根据上面的问题,本文提出了一种基于云模型对数量型属性进行划分的概念划分算法.此方法可根据数据的实际分布将其划分为多个基于云的概念.这种划分的特点是,所得到的概念反映了此属性中数据在定义域中的实际分布,同时,由于概念的边界是模糊的,不确定的,因而是一种软划分方法,这样所得到的结果集更加符合人的思维,同时又保持了传统硬划分所具有的优点. 1 基本总结 1.1 ax的隶属度 定义1. 设X是一个普通集合X={x},称为论域.关于论域X中的模糊集合A?A?,是指对于任意元素x都存在一个有稳定倾向的随机数μA?A?(x),叫做x对A?A?的隶属度.隶属度在基础变量上的分布称为云.在对模糊集的处理过程中,论域中某一点到它的隶属度之间的映射是一对多的转换,而不是一条明晰的隶属曲线,从而产生了云的概念.在云模型中,经过映射,属于一个定性语言值的数值是不确定的,始终在细微变化着,并且这种变化不剧烈影响到云的整体特征.云可伸缩、无边沿、有弹性,云滴的分布特性反映了映射的模糊性和随机性,其整体形状是最重要的. 1.2 云模型的建立 由于社会和自然科学中的大量模糊概念(特别是常识性知识的表述),其期望曲线都近似服从正态或半正态分布,因而基本云即正态云是表征语言原子最重要、最有力的工具,比如青年、工资高等语言原子用云都可以很好地描述,而云的数字特征,则反映了定性知识的定量特性.更为简单、方便的是,一个基本云只需要用期望值Ex、熵En、超熵He这3个数字特征就可以完整地表征出来. 期望Ex:在普通正态云的论域X中,对应于隶属度最大值的基础变量x称为云的期望,它标定了云对象在论域中的位置,即云的重心位置,换句话说,Ex反映了相应的模糊概念的信息中心值. 熵En:概念模糊度的度量.熵的大小直接决定了在论域中可被模糊概念所接受的范围. 超熵He:可谓熵En的熵,反映了云的离散程度.超熵的大小间接地反映了云的厚度. 对模糊集A?A?而言,重要的是云的形状所反映出的整体特性,以及使用时隶属度所呈现的规律性,例如,图1就是用云所表示的“青年”、“中青年”和“中年”这3个概念,其中“青年”的数字特征为Ex=25,En=3,He=0.2,“中青年”的数字特征为Ex=35,En=3,He=0.2,而“中年”的数字特征分别为Ex=45,En=3,He=0.2. 云模型主要有以下几个特点: (1) 所描述的概念的数值具有凝聚性,例如,在图1描述“青年”的云中,25附近的点最密,离25越远,点越稀. (2) 云的期望曲线服从正态分布,便于反映大量日常的模糊概念. (3) 对于相同的x,其隶属于概念的隶属度具有随机性,会在一定的范围内浮动,这恰好反映了不同的人对同一事物看法的差异. 2 云模型的概念划分方法 2.1 云变换的定义 很显然,利用云模型可以将数量型

您可能关注的文档

文档评论(0)

139****9425 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档