- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
厦门大学数据挖掘数据的排序即有向聚类分析PPT
第五章 数据的排序及有向聚类分析;§5.1 引 言; 数据排序必须要有研究对象,即我们是对属性项(变量)进行排序,还是对事务项(样本)进行排序,这一点必须要明确.研究对象要根据问题的研究目的和内容来确定.
在明确了排序的对象后,进行排序前还要确定一个排序标准,标准不一样,排序的结果不一样.排序标准的确定不是那么轻而易举的,如果标准确定不好,不仅反映不出实际问题,而且还有可能误导人们对问题的认识.因此,排序标准的确定既要建立在一定的理论基础上,而且又要有一定的实际背景.这方面的内容我们将在后面详细探讨.; 随着对数据的进一步考虑,我们将会发现,排序后数据之间的“距离”(包括相似的概念,以后不再强调)并不相等,也就是排序后数据的稀疏程度不均匀.由于数据量过大,我们自然要关心的是对一个数据集合进行分析,这样就提出了如何对排序资料进行聚类分析.; 我们知道聚类分析源于许多研究领域,包括数据挖掘、统计学、生物学以及机器学习,但对有序样品的聚类分析的理论内容并不多 (胡国定,张润楚 (1989), 286-319),而且所研究的内容立足点是,已知变量(或样品)具有一定的顺序,其顺序在聚类中是不能打乱的,即只能按其顺序分成若干类.例如,欲了解儿童的生长发育规律,对所获得的儿童的体重按发育阶段进行分类,这里很清楚,只能按年龄由小到大分成若干个发育阶段,如果按不同的年龄(非顺序性)将儿童的体重进行聚类分析,这样的结果不适合生长发育规律的要求.这类有序变量(或样品)是客观现实中存在的,这种有序我们称为客观有序.
;Date;§5.2.2 以综合属性项为标准的排序;Date;Date;Date;Date;§5.2.3 移动通讯用户综合费用排序; 图1-a 图1-b 移动通讯用户消费概率分布与综合属性评价分布比较;图 2移动通讯用户消费综合属性评价排序;Date; 通过分析我们可以挖掘出以下知识:
i).以此排序结果看,该地区移动手机用户平均消费最大的综合评价指标值是0.9865,即本地话费在3档上(100-300元),长途话费和漫游费的消费在2档??(0-100元).从总体上,该地区的移动手机用户的本地话费消费群体集中在3档,长途话费和漫游费的消费群体集中在2档上,处于中低档消费水平.
ii).这里需要特别说明的是,所有的1档消费群体综合评价指标值为0.0513,排在第13位,这些消费者虽然拥有手机但没有消费,它直接影响着该地区移动通讯的业务总收入量,这部分消费者具有潜在流失倾向,公司应该针对此情况采取措施.我们对以后的几个月进行分析,发现这种情形越发严重.这种异常现象的发现,充分体现了数据挖掘的特点.;§5.3 属性项(变量)的排序标准;§5.3.1 以平均水平为标准的排序;Date;Date;§5.3.2 以秩效应为标准的排序;Date;Date;Date;Date;§5.4 数据的衍生;Date;§5.4.2 相异度矩阵;Date;Date;Date;§5.5 有序近邻聚类分析;Date;Date;Date;§5.5.2 Fisher最优求解法与有序近邻方法的比较;Date;Date;Date;Date;Date;Date;Date;Date;Date;Date;Date;§5.6 有序平均秩效应聚类分析;Date;Date;Date;Date;Date;;Date;Date; 通过上面的计算结果我们可以挖掘出一下知识:
i).第一类与第二类所包含水平的影响程度明显地高于平均影响程度,而且第一类远远高于其他类对大学生成长与发展的影响,说明个人对未来的发展动机与家庭状况对自己的成长与发展影响最大.第二类仅次于平均影响程度,说明大学生对专业知识的加强在自己的成长与发展中起着相当重要的作用.
ii).第三类包括社会政治环境、报刊杂志的内容、兄弟姐妹言行、校风学风状况.由于报刊杂志的内容、兄弟姐妹言行、校风学风状况均与社会环境的好坏有着密切的关系,我们可以将这一类概括为在现社会大环境因素,它对大学生成长和发展的影响与平均影响程度没有显著性的差异.
iii).第四类、第五类与第六类所包含水平的影响程度均低于平均影响程度.; 第四类所包括的内容从两个方面影响大学生的成长与发展,即一是对物质方面的追求,二是老师言行及典型人物的影响,例如科学家和英雄人物.
第五类包括校园文化活动、学校管理制
您可能关注的文档
最近下载
- 2025最新高级生命支持(ACLS)理论考核试题及答案.docx VIP
- T∕CCSAS 001-2018 危险与可操作性分析质量控制与审查导则.pdf
- 07J912-1变配电所图集.pdf VIP
- 基于PLC控制的小车自动化送料系统设计(毕业论文).doc VIP
- 2025北京海淀高一(下)期末数学试卷含答案.pdf VIP
- 中国社会的不婚现象:现实与潜在影响探讨.docx VIP
- 2025最新高级生命支持(ACLS)理论考核试题和答案.docx
- 5.2《稻》《作酢法》+二则(知识清单)-【中职专用】高二语文(高教版2023拓展模块下册).docx VIP
- 2025年非车险考试题 .pdf VIP
- GB50016-2014 建筑设计防火规范(2018年版).docx
文档评论(0)