- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于信息熵度量类间桥方法
基于信息熵度量类间桥方法
摘要:类间桥在化学试剂合成#65380;市场营销#65380;生物嫁接等多个领域都有着广泛的应用。考虑了类间桥形成的深层次原因,给出了寻找以及结合信息熵的两种度量类间桥的方法。
关键词:聚类分析; 关系数据库; 类间桥; 信息熵
中图分类号:TP311文献标志码:A
文章编号:1001-3695(2008)02-0359-03
分类和聚类是数据挖掘研究领域中两个十分重要的分支。分类首先需要建立一个模型,用来描述预定的数据类集或概念集,然后使用模型进行分类。基本的分类技术以判定树归纳和贝叶斯分类为代表,主要用于预测。聚类的目标是将数据对象分组成多个类或簇,使同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。聚类分析的主要算法包括基于距离#65380;基于密度和基于层次等。然而无论是分类还是聚类,它们的目标都是将具有不同特性的对象尽可能地区分清楚,使之归入到不同的类中,对于类间的相互作用关系却研究得很少。如果需要将整个数据集看成一个整体来研究内部的关系,或者需要探讨两个不同类中对象间的相互制约或是相互促进,以及这种关系带给两个类的影响时,类间的相互作用关系就显得尤为重要。举个例子来说,化学研究中的催化剂就是连接两个类的很好例子,比如广泛用于调制香料和洗涤剂的柠檬醛,就是经牦牛儿醇和分子氧在催化剂Al??2O??3的作用下生成的。如果没有催化剂,反应的效果会很差且时间很长。可见催化剂很好地起到了类间的桥梁作用,利用它把两个类连接起来,形成互动,产生新的知识。因此,笔者形象地把本文要研究的这种类间关系称之为类间桥。除此以外,植物学中的嫁接和市场营销中的交叉销售都是利用类间桥的典型例子。
可以看出,研究类间桥是很有意义和实用价值的。然而在寻找类间桥之前,还需要先解决的一个问题就是类间桥的度量。因为即使找到了类间桥,如果不能正确地判断它的重要程度,那么对于它的研究和应用就会受到影响。正如关联规则的支持度―置信度框架和聚类分析的阈值一样,类间桥也需要一个度量和评判的标准。
1相关工作
文献[1~3]介绍了寻找类间桥的一些研究。文献[1]是在聚类算法[4]的基础上改进的,适用于大型关系数据库的挖掘。下面介绍另外一种算法――基于权重的算法。这种算法实质上是一个后处理过程,适用于交易数据库的挖掘。它考虑了每种对象的权重和apriori的一些特性。整个算法分为三个步骤:发现跨类的频繁项集;在发现的频繁项集的基础上用χ??2检测[5,6]确定频繁相集,并且用项集排列树[5]进行剪枝;计算项集的标准重要性。
2基于信息熵的度量
上面介绍的两种方法成功地找到了所期望的类间桥。桥两端的对象与其他类间对象相比有着特殊的#65380;更为紧密的联系。这里再从另外一个角度来考虑有意义的类间桥,即某座桥之所以重要,不仅仅因为桥两端对象间的紧密联系,还在于通过这座桥,引起的两个概念类之间相互联系的多少。那么可以说,对一座类间桥而言,桥两端的对象联系越紧密,概念类之间的相互联系就越多,这座桥就越重要。
就度量这个问题来说,用到的评价标准因数据库类型的不同而有所区别。对关系数据库而言,衡量桥两端的对象联系是否紧密就用相似度,即两对象中具有相同属性值的属性个数和总属性个数的比值;衡量概念类间的相互联系多少可以利用信息熵。因为类间相互联系的多少也可以看成是从一个类中可以获得的有关另一个类的信息量的多少。这正好符合信息熵的定义和性质[7],即信息熵越大,信息量就越多。对交易数据库而言,第一个衡量标准用置信度计算,第二个可以根据具体情况作相应改变。由于交易数据库可以转换为关系数据库,两者并没有本质的不同。这里先考虑关系数据库的情况,介绍两种相似度与信息熵结合的度量方法(假定所有的桥,包括有趣的和无趣的都已经找到)。
从结果来看,两种方法得到的桥是完全不一样的,这是因为它们是从不同的角度来对桥进行度量的。这里不评论它们谁更有效,因为它们是不可相互替代的。
4结束语
本文描述了类间桥的一般形式和研究它的现实意义,列举了前期做的一些相关工作;分析了桥的深层次的特征,并利用这一点结合信息熵给出了两种度量桥重要性的方法。最后用实验证明了度量方法的有效性。
参考文献:
[1]张师超,陈峰,尤晓芳.挖掘概念类间的相互作用关系[J].计算机科学,2005,32(10):128-131.
[2]QIN Ze, CHEN Feng. Discovering class-bridge rules within concep-tual Classes[J]. Asian Journal of In
文档评论(0)