Python人工智能应用与实践课件:非监督学习.pptxVIP

Python人工智能应用与实践课件:非监督学习.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

非监督学习

7.1K均值算法

7.1.1聚类算法简介

机器学习除了有监督学习之外,还有一个大类为无监督学习。在现实的环境中,大量数据处于没有标注的状态,也就是没有“参考答案”的,要使这些数据发挥作用,就需要使用无监督学习。在无监督学习中最为经典的问题聚类问题,用于解决聚类问题的算法一般称为聚类算法,本节将通过一种最为经典的聚类算法K均值,来了解聚类问题的要求和基本解决方法。

聚类分析是一种典型的无监督学习,用于对未知类别样本进行划分,将它们按照一定的规则划分成若干个类簇,把相似(距离相近)的样本聚在同一个类簇中,把不相似的样本分为不同类簇,从而揭示样本之间内在的性质以及相互间的联系规律。但聚类算法不会提供每个类簇的解释,这部分需要由分析人员进行归纳总结。聚类分析的应用十分广泛,对于聚类方法的研究也很多,有些方法原理比较简单,而有些方法可能融合了几种不同的聚类方法,甚至融合了其他类别的分析方法,如统计理论、神经网络等。

7.1.2K均值算法实现

K均值聚类是聚类算法中比较简单的一种基础算法,它是一种基于划分的聚类算法。通过计算样本点与类簇中心的距离,与类簇中心相近的样本点划分为同一类簇。K均值中样本间的相似度是由它们之间的距离决定的,距离越近,说明相似度越高;反之,则说明相似度越低。通常用距离的倒数表示相似度的值,其中常见的距离计算方法有欧氏距离和曼哈顿距离等,具体公式和介绍参见6.4章节。其中,欧氏距离更为常用。

K均值算法聚类步骤如下:

1)首先随机选取K个样本点作为初始聚类中心。

2)对剩余的每个样本点,计算它们到各个聚类中心的欧氏距离,并将其归入到与之距离最小的聚类中心所在的簇。

3)在所有样本点都划分完毕后,根据划分情况重新计算各个新簇的聚类中心。

4)重复第2)步和第3)步,直到迭代计算后,所有样本点的划分情况保持不变,或者满足终止条件,此时说明K均值算法已经得到了最优解,将运行结果输出。;

7.1.3K均值算法应用案例

本节将通过搭建客户价值评估模型来学习K均值算??在客户关系管理方面的应用。

1.案例概述

企业营销的重点从原来的以产品为中心逐渐转向以客户为中心,因此客户关系的管理就逐渐被企业重视起来。客户关系管理的核心是客户分群,通过客户分群,区分客户价值,例如高价值客户、低价值客户、无价值客户等。企业针对不同类型的客户进行个性化的服务方案。

针对高价值客户和潜在高价值客户,将有限的资源集中于这部分客户群体,将会实现企业利润的最大化。

面对激烈的市场竞争,各航空公司都推出了更优惠的营销方式来吸引更多的客户,国内某航空公司希望通过数据挖掘技术建立合理的客户价值评估模型,对客户进行分群,分析不同客户群的客户价值,并制定相应的营销策略。目前该航空公司已积累了大量的会员档案信息和其乘坐信息。

2.数据集

本案例的样本数据集共计62830条,包含了会员卡号、入会时间、第一次飞行日期、性别、会员卡级别、工作地城市、工作地所在省份、工作地所在国家、年龄、飞行次数等共45个属性,数据集中变量的详细描述如表7-1所示。我们的目的是根据这些历史数据搭建航空客户价值评估,用来将客户分成不同类型的群体。;

3.分析过程-大数据平应用平台

本案例目标是客户价值识别,即通过航空公司客户数据识别不同价值的客户。识别客户最常用的3个指标是最近消费时间间隔(R)、消费频率(F)、消费金额(M)来进行客户细分,识别出高价值客户,简称RFM模型。

RFM模型中,消费金额表示一段时间内,客户购买企业产品金额的总和。由于航空票价受到运输距离、舱位等级等多种因素影响,相同消费金额的不同旅客对航空公司的价值是不同的。例如,一位购买长航线、低等舱位票的旅客与一位购买短航线、高等级舱位票的旅客相比,后者对于航空公司的价值可能更高。因此,消费金额这个指标并不适合航空公司客户价值分析。应选择客户在一定时间内累积的飞行里程M和客户在一定时间内乘坐舱位所对应的折扣系数的平均值C这两个指标代替消费金额。此外,还考虑航空公司会员入会时间的长短在一定程度上影响客户价值,所以将客户关系长度L也加入到航空公司识别客户价值模型中。

●客户关系长度L:会员入会时间距观测窗口结束的月份。

●消费时间间隔R:客户最近一次乘坐公司飞机距观测窗口结束的月数。

●消费频率F:客户在观测窗口内乘坐公司飞机的次数。

●飞行里程M:客户在观测窗口内飞行里程。

●折扣系数的平均值C:客户在观测窗口内乘坐舱位所对应的折扣系数的平

文档评论(0)

乐毅淘文斋 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8121131046000040

1亿VIP精品文档

相关文档