网站大量收购闲置独家精品文档,联系QQ:2885784924

厦门大学数据挖掘数据的排序即有向聚类分析PPT课件.pptxVIP

厦门大学数据挖掘数据的排序即有向聚类分析PPT课件.pptx

  1. 1、本文档共68页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

厦门大学数据挖掘数据的排序即有向聚类分析;§5.1引言;数据排序必须要有研究对象,即我们是对属性项(变量)进行排序,还是对事务项(样本)进行排序,这一点必须要明确.研究对象要根据问题的研究目的和内容来确定.

在明确了排序的对象后,进行排序前还要确定一个排序标准,标准不一样,排序的结果不一样.排序标准的确定不是那么轻而易举的,如果标准确定不好,不仅反映不出实际问题,而且还有可能误导人们对问题的认识.因此,排序标准的确定既要建立在一定的理论基础上,而且又要有一定的实际背景.这方面的内容我们将在后面详细探讨.;随着对数据的进一步考虑,我们将会发现,排序后数据之间的“距离”(包括相似的概念,以后不再强调)并不相等,也就是排序后数据的稀疏程度不均匀.由于数据量过大,我们自然要关心的是对一个数据集合进行分析,这样就提出了如何对排序资料进行聚类分析.;我们知道聚类分析源于许多研究领域,包括数据挖掘、统计学、生物学以及机器学习,但对有序样品的聚类分析的理论内容并不多(胡国定,张润楚(1989),286-319),而且所研究的内容立足点是,已知变量(或样品)具有一定的顺序,其顺序在聚类中是不能打乱的,即只能按其顺序分成若干类.例如,欲了解儿童的生长发育规律,对所获得的儿童的体重按发育阶段进行分类,这里很清楚,只能按年龄由小到大分成若干个发育阶段,如果按不同的年龄(非顺序性)将儿童的体重进行聚类分析,这样的结果不适合生长发育规律的要求.这类有序变量(或样品)是客观现实中存在的,这种有序我们称为客观有序.

;对于非有序数据进行聚类分析,这在数据挖掘中已经成为一个非常活跃的研究课题(Trespv,V.(2001),VanHulle,M.M.(2000),Gardner,M.,

Lalmas,M.andRuthven,I.(2001),Friedman,J.H.(1997)).但是根据我们研究的内容和聚类的目的,将数据排序后,再进行聚类分析,这样不仅会对聚类的结果有更细致深刻的认识,还会大大提高聚类的运算速度.在这里我们所涉及到的有序数据是根据某一研究的目的排列而成的,这种有序我们称为目的有序.;§5.2.1以信息源为标准的排序;24/10/11;§5.2.2以???合属性项为标准的排序;24/10/11;24/10/11;24/10/11;24/10/11;§5.2.3移动通讯用户综合费用排序;图1-a图1-b

移动通讯用户消费概率分布与综合属性评价分布比较;图2

移动通讯用户消费综合属性评价排序;24/10/11;通过分析我们可以挖掘出以下知识:

i).以此排序结果看,该地区移动手机用户平均消费最大的综合评价指标值是0.9865,即本地话费在3档上(100-300元),长途话费和漫游费的消费在2档上(0-100元).从总体上,该地区的移动手机用户的本地话费消费群体集中在3档,长途话费和漫游费的消费群体集中在2档上,处于中低档消费水平.

ii).这里需要特别说明的是,所有的1档消费群体综合评价指标值为0.0513,排在第13位,这些消费者虽然拥有手机但没有消费,它直接影响着该地区移动通讯的业务总收入量,这部分消费者具有潜在流失倾向,公司应该针对此情况采取措施.我们对以后的几个月进行分析,发现这种情形越发严重.这种异常现象的发现,充分体现了数据挖掘的特点.;§5.3属性项(变量)的排序标准;§5.3.1以平均水平为标准的排序;24/10/11;24/10/11;§5.3.2以秩效应为标准的排序;24/10/11;24/10/11;24/10/11;24/10/11;§5.4数据的衍生;24/10/11;§5.4.2相异度矩阵;24/10/11;24/10/11;24/10/11;§5.5有序近邻聚类分析;24/10/11;24/10/11;24/10/11;§5.5.2Fisher最优求解法与有序近邻方法的比较;24/10/11;24/10/11;24/10/11;24/10/11;24/10/11;24/10/11;24/10/11;24/10/11;24/10/11;24/10/11;24/10/11;§5.6有序平均秩效应聚类分析;24/10/11;24/10/11;;24/10/11;;;24/10/11;24/10/11;通过上面的计算结果我们可以挖掘出一下知识:

文档评论(0)

QualityDocument + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档