厦门大学数据挖掘数据的排序即有向聚类分析教程.pptVIP

厦门大学数据挖掘数据的排序即有向聚类分析教程.ppt

  1. 1、本文档共68页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
§5.5 有序近邻聚类分析 §5.5.1 相似指标的确定及聚类分析 §5.5.2 Fisher最优求解法与有序近邻方法的比较 * * 第五章 数据的排序及有向聚类分析 §5.1 引言 §5.2 事务项的排序标准 §5.3 属相项的排序标准 §5.4 数据的衍生 §5.5 有序近邻聚类分析 §5.6 有序平均秩效应聚类分析 §5.1 引 言 数据排序在数据挖掘中显得尤为重要,但往往被人们所忽视.因为在数据量较少时,对于排序看起来不是什么问题,也无需专门去研究和讨论.然而,对于海量数据的分析,排序问题就不是那么简单了.可以想象利用Web的有关资料,我们如何将网络广告、街头广告、报刊广告等对电视广告的影响程度排序呢?又如,在大学生成长和发展过程,因素q1,q2,...,q25所起的作用大小又是如何呢?这些问题的解决不仅为进一步的数据挖掘提供适合的数据形式,而且为数据分析过程中的算法改进、提高精度、增强有效性奠定了理论基础. 对于非有序数据进行聚类分析,这在数据挖掘中已经成为一个非常活跃的研究课题 (Trespv,V. (2001),Van Hulle,M.M.(2000),Gardner,M., Lalmas,M.and Ruthven,I.(2001),Friedman,J.H. (1997)).但是根据我们研究的内容和聚类的目的,将数据排序后,再进行聚类分析,这样不仅会对聚类的结果有更细致深刻的认识,还会大大提高聚类的运算速度.在这里我们所涉及到的有序数据是根据某一研究的目的排列而成的,这种有序我们称为目的有序. §5.2.1 以信息源为标准的排序 §5.2 事务项(样品)的排序标准 §5.2.2 以综合属性项为标准的排序 图 2 移动通讯用户消费综合属性评价排序 通过分析我们可以挖掘出以下知识: i).以此排序结果看,该地区移动手机用户平均消费最大的综合评价指标值是0.9865,即本地话费在3档上(100-300元),长途话费和漫游费的消费在2档上(0-100元).从总体上,该地区的移动手机用户的本地话费消费群体集中在3档,长途话费和漫游费的消费群体集中在2档上,处于中低档消费水平. ii).这里需要特别说明的是,所有的1档消费群体综合评价指标值为0.0513,排在第13位,这些消费者虽然拥有手机但没有消费,它直接影响着该地区移动通讯的业务总收入量,这部分消费者具有潜在流失倾向,公司应该针对此情况采取措施.我们对以后的几个月进行分析,发现这种情形越发严重.这种异常现象的发现,充分体现了数据挖掘的特点. §5.3 属性项(变量)的排序标准 §5.3.1 以平均水平为标准的排序 §5.3.2 以秩效应为标准的排序 §5.4 数据的衍生 §5.4.1 数据矩阵 聚类分析是一种重要的人类行为,通过聚类人们能够识别密集和稀疏的区域,因而发现全局的分布模式,以及数据属性之间有趣的相互关系.聚类分析作为数据挖掘的一种功能,不仅能独立地来获得数据分布情况,观察每个族的特点,集中对待定的某些族作出进一步的分析,而且还是进行其它数据分析(如回归、分类、网络分析等)的预处理过程 (Owen, A. B. (1999)).可以说,聚类分析不论在理论上,还是在应用上正在蓬勃发展,有贡献的研究领域包括数据挖掘 (Trespv, V. (2001))、统计学 (Van Der Ark, L. A., Van Der Heijden, P. G. M. and Sikkel, D. (1999))、机器学习 (Krieger, A. M. and Green, P. E. (1999))、空间数据库技术(Nelson, D. E. (2001))、生物学 (Segal, E. and Koller, D.)以及市场营销 ( Yun, C. H., Chuang, K. T. and Chen, M. S.)等.由于数据库中收集了大量的数据,聚类分析的研究工作已经涉及到大型数据库的有效和实际的聚类分析寻找适当的方法上.那么,聚类分析所针对的数据类型如何呢?这一问题的明确,将会为聚类分析的方法研究澄清思路. §5.4.2 相异度矩阵 * * * * *

您可能关注的文档

文档评论(0)

youngyu0329 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档