- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
机器学习徐国清K-Means聚类应用二河南工业职业技术学院
数据准备利用pandas库中的read_csv方法读取航空公司客户文件air_data.csv选取宽度为两年(2012年4月1日~2014年3月31日)的时间段作为分析观测窗口,总共62988条记录。发现数据中存在缺失值和异常值,因此在数据清洗过程中要重点对这两类数据进行处理。
特征构造LRFMC模型在RFM模型中,消费金额表示客户在一段时间内购买该企业产品金额的总和。然而航空票价受到多种因素(如距离、舱位等级)的影响,因此消费同样金额的不同客户对航空公司的价值可能是不同的,如一位购买长航线,低等级舱位票的旅客与一位购买短航线,高等级舱位票的旅客相比,后者对于航空公司而言价值可能更高。因此RFM模型中的消费金额这一特征并不适用于航空公司客户价值分析。
特征构造本案例在RFM模型的基础上,选择客户在一定时间内累积的飞行里程M、客户在一定时间内乘坐舱位所对应的折扣系数的平均值C。同时,因为航空公司会员入会时间的长短在一定程度上能够影响客户价值,所以在模型中增加客户关系长度L,作为区分客户的另一特征。记为LRFMC模型。
特征选择根据航空公司客户价值LRFMC模型,选择与LRFMC特征相关的6个特征:FFP_DATE、LOAD_TIME、FLIGHT_COUNT、avg_discount、SEG_KM_SUM、LAST_TO_END。LOAD_TIMEFFP_DATELAST_TO_ENDFLIGHT_COUNTSEG_KM_SUMAVG_DISCOUNT2014/3/312013/3/1623141268501.022014/3/312012/6/266651847300.762014/3/312009/12/8233603871.272014/3/312009/12/101236622591.022014/3/312011/8/251422547301.362014/3/312012/9/262326500241.29
特征变换由于选取的L、R、F、M、C特征在原始数据中并没有直接给出,因此需要根据原始数据特征进行特征变换得到需要的特征。L=观测窗口的结束时间-入会时间=LOAD_TIME-FFP_DATER=最后一次乘机时间至观察窗口末端时长=LAST_TO_ENDF=观测窗口的飞行次数=FLIGHT_COUNTM=观测窗口总飞行公里数=SEG_KM_SUMC=平均折扣率=avg_discount
模型训练采用K-Means聚类算法对航空公司客户进行分群,K-Means聚类需要预先给出k值,即需要事先指定聚类数目,本案例根据对业务的理解与分析结合,利用SSE绘制手肘图,找到合理的K值。
性能度量本案例中K-Means模型采用历史数据进行建模,随着时间的变化,分析数据的观测窗口在变化,航空公司客户的数据信息也在变化。因此,考虑业务的实际情况,建议每个月运行一次该模型,通过聚类判断新增加的客户所属的客户群,同时分析新增客户特征的价值。如果新增加客户数据的实际情况与判断结果差异较大,那么需要业务部门重点关注,查看出现差异的原因并确认模型的稳定性,如果模型稳定性变化较大,那么需要重新训练聚类模型。
结果分析
结果分析客户群1在特征F、M处的值最大,在特征R处的值最小,说明客户群1消费频率和累积飞行里程较大,消费时间间隔较小,这类客户需要航空公司重点关注并保持良好关系,称F、M、R特征为客户群1的优势特征。客户群2在L、C特征处的值最小,说明客户群2入会时间较短、享受的平均折扣系数较小。客户群3在R特征处的值最大,在F、M特征处的值最小,说明客户群3消费频率和累积飞行里程较小,消费时间间隔较大,这类客户可能只有在机票打折的时候才会乘坐航空公司航班,称F、M、R特征为客户群3的弱势特征。
结果分析客户群4在特征L处的值最大,说明客户群4入会时间较长。
客户价值分析重要保持客户平均折扣系数C较高,时间间隔R较低,消费频率(乘机次数)F或累积飞行里程M较高。这类客户是航空公司最理想的客户,他们为航空公司带来了大部分的利润,但是这类客户占的比例比较小,航空公司应该优先考虑将营销资源投入到这类客户,尽量使这类客户能够保持在公司的高质量消费。
客户价值分析重要挽留客户在过去的时间里平均折扣系数C,消费频率(乘机次数)F或飞行里程M较高,但是时间间隔R较大或消费频率(乘机次数)F逐渐变小。这类客户存在较高的不确定性因素,航空公司应该提高警惕,采取一定的营销手段,延长客户在航空公司的消费周期,否则,这些不确定因素可能导致这类客户的流失。
客户价值分析一般与低价值客户平均折扣系数C较低,时间间隔R较高,消费频率(乘机次数)F或飞行里程M较低,会员入会时
您可能关注的文档
- PracticalEnglishforInternationalCruiseShipCrew国际邮轮服务英语24课件讲解.pptx
- PracticalEnglishforInternationalCruiseShipCrew国际邮轮服务英语36课件讲解.pptx
- PracticalEnglishforInternationalCruiseShipCrew国际邮轮服务英语41课件讲解.pptx
- PracticalEnglishforInternationalCruiseShipCrew国际邮轮服务英语47课件讲解.pptx
- PracticalEnglishforInternationalCruiseShipCrew国际邮轮服务英语48课件讲解.pptx
- IO流概述罗祥裕96课件讲解.pptx
- IP数据报的转发52课件讲解.pptx
- Iterator接口赵耀宏16课件讲解.pptx
- Java语言的技术平台李冬29课件讲解.pptx
- Java语言发展历史李冬64课件讲解.pptx
最近下载
- 2013年海口市教专业技术资格评审教育教学能力考试成绩表.doc VIP
- 低空经济产业园的基础设施建设需求.docx VIP
- 人教版初中数学九年级上册期末测试卷(较易 )(含答案解析) .pdf VIP
- 感染性休克3h、6h集束化治疗定义及相关计算公式.docx VIP
- 低空经济产业园基础设施建设与优化.docx VIP
- 低空经济基础设施建设实施方案.docx VIP
- 机洗餐具用洗涤剂企业标准2020版.pdf VIP
- 1.1 亚马逊平台扣款项明细.xlsx VIP
- GJB 438C-2021 军用软件开发文档通用要求 (高清,带章).docx VIP
- 湖南省名校大联考2024-2025学年高一上学期1月期末考试历史试卷 含答案.docx VIP
原创力文档


文档评论(0)