- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
“桂和杯”大数据建模大赛初赛总结报告
战队名称: 和挖掘
队长姓名: 王重阳
队长所在单位: 移动市场部
队长联系方式:
团队成员: 洪七公、欧阳锋、黄药师
一、 问题理解(10%)
1. 对初赛主题“4G用户流失建模”的理解
通信市场竞争日趋激烈,客户规模和份额是三家运营商竞争的焦点。广西移动存量客户约3000万,客户份额约70%,一直是广西电信、广西联通以低资费千方百计策反的重点客户,建立大数据高危离网客户预警模型,细分高危离网客户群体挽留举措,对保障我公司主导运营商的地位有着极其重要的意义。当前四五星到达客户总数约237万,月均流失客户总数约0.55万,月均流失率约0.23%。三星及以下到达客户总数约2647万,月均流失客户总数约83万,月均流失率约3.15%,其中,四五星客户属于高价值重点保有客户,而三星及以下客户为主体客户,其流失现象也不容忽视。
全省在网客户约3000万,月均流失40万,流失率约1.4%。针对存量客户建立高危离网客户预警和保有模型,一是识别高危离网客户的规模、特征、离网概率等;二是根据客户特点,分析出挽留高危离网客户群体的解决方法,如预存话费、办理宽带等。
2. 解决本问题的常见思路的调研总结
(请结合自己之前的实际工作详细展开)
3. 总括性介绍本团队的解决思路
1) 首先这个数据是不平衡数据,需要进行平衡化处理后再进行建模,以便提高对于少数类(1,在本次初赛总也就是流失客户)的预测准确度与预测规模。
2) 数据预处理是保证数据挖掘最后所获得知识的必要保证。所以本团队进行了详细的预处理工作,主要包括字段属性以及数据个案的处理。
3) 鉴于培训期间学习了很多的模型以及实现方法,并且有了可以进行模型评优的标准,也就是ROC曲线。所以本团队尝试了多种模型并进行了集成学习以提高模型的效果。
4) 选出最优模型后,输出了十万个个案的预测为1的概率,下一步就是找到判决门限,即预测为1的概率大于多少时判为1。使用开题辅导时讲述的Q函数(也就是本次初赛的Y函数)求最值的方法,找出使得分数最高的最优判决门限。
二、 数据选择与预处理(20%)
1. 对训练集数据字段的理解
逐个字段进行意义的理解,结合以前的工作以及该类流失问题的经验得知,“被叫次数”、“主叫次数”、“被叫时长”、“主叫时长”等字段对于本赛题比较重要,着重进行处理。
2. 数据字段的选取,选了哪些,剔除哪些,为什么
对于数据字段的选取是必须的,因为训练集中180余个字段一起拿来建模是不科学也是不理智的,一方面处理速度会非常慢,耽误宝贵的工作时间;另一方面,会有很多干扰字段对于建模产生潜在的不良影响。所以我们团队从皮尔森相关性系数以及卡方相关性系数角度出发,找出和目标字段“是否流失”卡方相关性和皮尔森相关性最大的20个字段进行建模。
3. 重复个案的识别与处理
[以SPSS为例]通过软件中的奇异值识别方法以用户ID为筛选标准,标记并找出重复值。如果ID相同的两个人属性完全一样,则取该用户放回数据集,如果不一样,则删除(不进行建模分析)。
4. 缺失值的识别与处理;
5. 奇异值、离群点的识别与处理;
6. 数据字段的增加、修改、衍生
通过SPSS软件中的转换编码与计算变量的方法,增加“月均被叫次数”、“被叫次数方差”、“被叫次数变化率”;并将“信用等级”等数值型变量并离散化为“低星级”,“高星级”和“中星级”。
7. 数据降维
使用SPSS自带的主成分分析方法将数据集从182个字段降维为50个字段进行分析,但是保留原始的字段。以分析主成分分析是否对建模的精度以及最终的分数产生影响。
8. 数据的拆分与集成
考虑到初赛给的检验集是没有实际结果的。为了验证模型的准确性和迁移性,避免过拟合(泛化误差过大)的同时保证较低的训练误差,将预处理完成的数据拆分为训练集和测试集。训练集用于建立模型,测试集用于建延模型。
9. 其他需要说明的问题
建模前主要数据预处理工作包括:基于客户号码关联经分字段与热线字段,部分非结构化字段结构化处理(如,性别,网络制式等),删除冗余字段(如,流量套餐ID与流量套餐名称等)和无意义字段(如,客户级别,用户级别等)。
10. 后续可以改进的方面(因为时间紧、工具乏、数据缺等原因,本次建模大赛尚未完成的,但是后续工作很值得去做的)。
三、 软件工具(10%)
1. 列入考虑范围的所有软件综述;
列入考虑的软件包括SPSS Statistical,SPSS Modeler,Python,Spark,Excel。
2. 最终选择了哪些软件完成建模工作
本赛中主要使用的软件为SPSS Statiatics和SPSS Mo
您可能关注的文档
最近下载
- 高一数学幂函数、指数函数和对数函数练习题(含答案).docx VIP
- 新疆市政定额-第11册 钢筋工程、拆除工程.pdf VIP
- 运动强度控制方法.pptx VIP
- 2024年新人教道德与法治一年级上册全册教学课件(新版教材).pptx
- (人教版)小学数学六年级上册单元培优卷第一单元《分数乘法》(原卷版).docx VIP
- 2020年护士资格证考试常见疾病试题:循环系统解剖生理.docx VIP
- 2025年最新人教版七年级(初一)数学上册教学计划及进度表(新课标,新教材).docx
- 《如何提升领导力》课件.pptx VIP
- 《挺身式跳远》课件.ppt VIP
- 《腕管综合征》课件.ppt VIP
文档评论(0)