厦门大学数据挖掘课件之第5章 数据的排序即有向聚类分析.ppt

厦门大学数据挖掘课件之第5章 数据的排序即有向聚类分析.ppt

  1. 1、本文档共68页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
厦门大学数据挖掘课件之第5章 数据的排序即有向聚类分析

第五章 数据的排序及有向聚类分析 §5.1 引言 §5.2 事务项的排序标准 §5.3 属相项的排序标准 §5.4 数据的衍生 §5.5 有序近邻聚类分析 §5.6 有序平均秩效应聚类分析 §5.1 引 言 数据排序在数据挖掘中显得尤为重要,但往往被人们所忽视.因为在数据量较少时,对于排序看起来不是什么问题,也无需专门去研究和讨论.然而,对于海量数据的分析,排序问题就不是那么简单了.可以想象利用Web的有关资料,我们如何将网络广告、街头广告、报刊广告等对电视广告的影响程度排序呢?又如,在大学生成长和发展过程,因素q1,q2,...,q25所起的作用大小又是如何呢?这些问题的解决不仅为进一步的数据挖掘提供适合的数据形式,而且为数据分析过程中的算法改进、提高精度、增强有效性奠定了理论基础. 数据排序必须要有研究对象,即我们是对属性项(变量)进行排序,还是对事务项(样本)进行排序,这一点必须要明确.研究对象要根据问题的研究目的和内容来确定. 在明确了排序的对象后,进行排序前还要确定一个排序标准,标准不一样,排序的结果不一样.排序标准的确定不是那么轻而易举的,如果标准确定不好,不仅反映不出实际问题,而且还有可能误导人们对问题的认识.因此,排序标准的确定既要建立在一定的理论基础上,而且又要有一定的实际背景.这方面的内容我们将在后面详细探讨. 随着对数据的进一步考虑,我们将会发现,排序后数据之间的“距离”(包括相似的概念,以后不再强调)并不相等,也就是排序后数据的稀疏程度不均匀.由于数据量过大,我们自然要关心的是对一个数据集合进行分析,这样就提出了如何对排序资料进行聚类分析. 我们知道聚类分析源于许多研究领域,包括数据挖掘、统计学、生物学以及机器学习,但对有序样品的聚类分析的理论内容并不多 (胡国定,张润楚 (1989), 286-319),而且所研究的内容立足点是,已知变量(或样品)具有一定的顺序,其顺序在聚类中是不能打乱的,即只能按其顺序分成若干类.例如,欲了解儿童的生长发育规律,对所获得的儿童的体重按发育阶段进行分类,这里很清楚,只能按年龄由小到大分成若干个发育阶段,如果按不同的年龄(非顺序性)将儿童的体重进行聚类分析,这样的结果不适合生长发育规律的要求.这类有序变量(或样品)是客观现实中存在的,这种有序我们称为客观有序. 对于非有序数据进行聚类分析,这在数据挖掘中已经成为一个非常活跃的研究课题 (Trespv,V. (2001),Van Hulle,M.M.(2000),Gardner,M., Lalmas,M.and Ruthven,I.(2001),Friedman,J.H. (1997)).但是根据我们研究的内容和聚类的目的,将数据排序后,再进行聚类分析,这样不仅会对聚类的结果有更细致深刻的认识,还会大大提高聚类的运算速度.在这里我们所涉及到的有序数据是根据某一研究的目的排列而成的,这种有序我们称为目的有序. §5.2.1 以信息源为标准的排序 §5.2.2 以综合属性项为标准的排序 §5.2.3 移动通讯用户综合费用排序 我们已经对某地区中国移动通讯用户数据库进行了压缩分析,得到了关于属性子集A={本地话费、长途话费、漫游费}的压缩信息系统.现在将利用上面的方法对移动通讯用户的消费情况进行综合评价,以2001年10月的压缩信息系统为例分析.计算出综合评价指标Z,将其可视化得到2001年10月移动通讯用户消费属性综合评价分布(图1-b),比较接近用户消费概率分布 (图1-a),综合排序以后的分布见图2,由于图2反映出排序以后前20位的综合指标较大,将其事务项列出见下表. 图1-a 图1-b 移动通讯用户消费概率分布与综合属性评价分布比较 图 2 移动通讯用户消费综合属性评价排序 通过分析我们可以挖掘出以下知识: i).以此排序结果看,该地区移动手机用户平均消费最大的综合评价指标值是0.9865,即本地话费在3档上(100-300元),长途话费和漫游费的消费在2档上(0-100元).从总体上,该地区的移动手机用户的本地话费消费群体集中在3档,长途话费和漫游费的消费群体集中在2档上,处于中低档消费水平. ii).这里需要特别说明的是,所有的1档消费群体综合评价指标值为0.0513,排在第13位,这些消费者虽然拥有手机但

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档