- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
厦门大学数据挖掘数据的排序即有向聚类分析讲解材料.ppt
§5.5 有序近邻聚类分析 §5.5.1 相似指标的确定及聚类分析 §5.5.2 Fisher最优求解法与有序近邻方法的比较 * * 第五章 数据的排序及有向聚类分析 §5.1 引言 §5.2 事务项的排序标准 §5.3 属相项的排序标准 §5.4 数据的衍生 §5.5 有序近邻聚类分析 §5.6 有序平均秩效应聚类分析 §5.1 引 言 数据排序在数据挖掘中显得尤为重要,但往往被人们所忽视.因为在数据量较少时,对于排序看起来不是什么问题,也无需专门去研究和讨论.然而,对于海量数据的分析,排序问题就不是那么简单了.可以想象利用Web的有关资料,我们如何将网络广告、街头广告、报刊广告等对电视广告的影响程度排序呢?又如,在大学生成长和发展过程,因素q1,q2,...,q25所起的作用大小又是如何呢?这些问题的解决不仅为进一步的数据挖掘提供适合的数据形式,而且为数据分析过程中的算法改进、提高精度、增强有效性奠定了理论基础. 数据排序必须要有研究对象,即我们是对属性项(变量)进行排序,还是对事务项(样本)进行排序,这一点必须要明确.研究对象要根据问题的研究目的和内容来确定. 在明确了排序的对象后,进行排序前还要确定一个排序标准,标准不一样,排序的结果不一样.排序标准的确定不是那么轻而易举的,如果标准确定不好,不仅反映不出实际问题,而且还有可能误导人们对问题的认识.因此,排序标准的确定既要建立在一定的理论基础上,而且又要有一定的实际背景.这方面的内容我们将在后面详细探讨. 随着对数据的进一步考虑,我们将会发现,排序后数据之间的“距离”(包括相似的概念,以后不再强调)并不相等,也就是排序后数据的稀疏程度不均匀.由于数据量过大,我们自然要关心的是对一个数据集合进行分析,这样就提出了如何对排序资料进行聚类分析. 我们知道聚类分析源于许多研究领域,包括数据挖掘、统计学、生物学以及机器学习,但对有序样品的聚类分析的理论内容并不多 (胡国定,张润楚 (1989), 286-319),而且所研究的内容立足点是,已知变量(或样品)具有一定的顺序,其顺序在聚类中是不能打乱的,即只能按其顺序分成若干类.例如,欲了解儿童的生长发育规律,对所获得的儿童的体重按发育阶段进行分类,这里很清楚,只能按年龄由小到大分成若干个发育阶段,如果按不同的年龄(非顺序性)将儿童的体重进行聚类分析,这样的结果不适合生长发育规律的要求.这类有序变量(或样品)是客观现实中存在的,这种有序我们称为客观有序. §5.2.2 以综合属性项为标准的排序 §5.2.3 移动通讯用户综合费用排序 我们已经对某地区中国移动通讯用户数据库进行了压缩分析,得到了关于属性子集A={本地话费、长途话费、漫游费}的压缩信息系统.现在将利用上面的方法对移动通讯用户的消费情况进行综合评价,以2001年10月的压缩信息系统为例分析.计算出综合评价指标Z,将其可视化得到2001年10月移动通讯用户消费属性综合评价分布(图1-b),比较接近用户消费概率分布 (图1-a),综合排序以后的分布见图2,由于图2反映出排序以后前20位的综合指标较大,将其事务项列出见下表. 图1-a 图1-b 移动通讯用户消费概率分布与综合属性评价分布比较 图 2移动通讯用户消费综合属性评价排序 通过分析我们可以挖掘出以下知识: i).以此排序结果看,该地区移动手机用户平均消费最大的综合评价指标值是0.9865,即本地话费在3档上(100-300元),长途话费和漫游费的消费在2档上(0-100元).从总体上,该地区的移动手机用户的本地话费消费群体集中在3档,长途话费和漫游费的消费群体集中在2档上,处于中低档消费水平. ii).这里需要特别说明的是,所有的1档消费群体综合评价指标值为0.0513,排在第13位,这些消费者虽然拥有手机但没有消费,它直接影响着该地区移动通讯的业务总收入量,这部分消费者具有潜在流失倾向,公司应该针对此情况采取措施.我们对以后的几个月进行分析,发现这种情形越发严重.这种异常现象的发现,充分体现了数据挖掘的特点. §5.3 属性项(变量)的排序标准 §5.3.1 以平均水平为标准的排序 §5.3.2 以秩效应为标准的排序 §5.4 数据的衍生 §5.4.1 数据矩阵 聚类分析是一种重要的人类行为,通过
您可能关注的文档
最近下载
- 19S910_自动灭火系统设计.docx VIP
- 《高速铁路常用跨度桥梁附属设施—预制装配桥面设施》(通桥(2024)8388A-Ⅱ).pdf VIP
- 税务稽查自查报告精选 .doc VIP
- 《不动产登记法律制度政策》考前冲刺备考200题(含详解).docx VIP
- 欧洲文化入门第五.ppt VIP
- 2023年江苏省普通高中学业水平合格性考试数学真题试卷含详解.pptx VIP
- 上市公司市值管理绩效评价指标体系.pdf
- 课程与教学论知到智慧树期末考试答案题库2025年浙江师范大学.docx VIP
- 2020浙GT49端板连接先张法预应力混凝土竹节管桩.pdf VIP
- 太矿700采煤机电气说明书1.doc VIP
原创力文档


文档评论(0)