风云战队+初赛复习总结报告.docxVIP

下载本文档

5
0
约5.66千字
约 10页
2018-06-20 发布于上海
举报
版权申诉

风云战队+初赛复习总结报告.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

“桂和杯”大数据建模大赛初赛总结报告战队名称：和挖掘队长姓名：王重阳队长所在单位：移动市场部队长联系方式：团队成员：洪七公、欧阳锋、黄药师一、问题理解（10%） 1. 对初赛主题“4G用户流失建模”的理解通信市场竞争日趋激烈，客户规模和份额是三家运营商竞争的焦点。广西移动存量客户约3000万，客户份额约70%，一直是广西电信、广西联通以低资费千方百计策反的重点客户，建立大数据高危离网客户预警模型，细分高危离网客户群体挽留举措，对保障我公司主导运营商的地位有着极其重要的意义。当前四五星到达客户总数约237万，月均流失客户总数约0.55万，月均流失率约0.23%。三星及以下到达客户总数约2647万，月均流失客户总数约83万，月均流失率约3.15%，其中，四五星客户属于高价值重点保有客户，而三星及以下客户为主体客户，其流失现象也不容忽视。全省在网客户约3000万，月均流失40万，流失率约1.4%。针对存量客户建立高危离网客户预警和保有模型，一是识别高危离网客户的规模、特征、离网概率等；二是根据客户特点，分析出挽留高危离网客户群体的解决方法，如预存话费、办理宽带等。 2. 解决本问题的常见思路的调研总结（请结合自己之前的实际工作详细展开） 3. 总括性介绍本团队的解决思路 1) 首先这个数据是不平衡数据，需要进行平衡化处理后再进行建模，以便提高对于少数类（1，在本次初赛总也就是流失客户）的预测准确度与预测规模。 2) 数据预处理是保证数据挖掘最后所获得知识的必要保证。所以本团队进行了详细的预处理工作，主要包括字段属性以及数据个案的处理。 3) 鉴于培训期间学习了很多的模型以及实现方法，并且有了可以进行模型评优的标准，也就是ROC曲线。所以本团队尝试了多种模型并进行了集成学习以提高模型的效果。 4) 选出最优模型后，输出了十万个个案的预测为1的概率，下一步就是找到判决门限，即预测为1的概率大于多少时判为1。使用开题辅导时讲述的Q函数（也就是本次初赛的Y函数）求最值的方法，找出使得分数最高的最优判决门限。二、数据选择与预处理（20%） 1. 对训练集数据字段的理解逐个字段进行意义的理解，结合以前的工作以及该类流失问题的经验得知，“被叫次数”、“主叫次数”、“被叫时长”、“主叫时长”等字段对于本赛题比较重要，着重进行处理。 2. 数据字段的选取，选了哪些，剔除哪些，为什么对于数据字段的选取是必须的，因为训练集中180余个字段一起拿来建模是不科学也是不理智的，一方面处理速度会非常慢，耽误宝贵的工作时间；另一方面，会有很多干扰字段对于建模产生潜在的不良影响。所以我们团队从皮尔森相关性系数以及卡方相关性系数角度出发，找出和目标字段“是否流失”卡方相关性和皮尔森相关性最大的20个字段进行建模。 3. 重复个案的识别与处理 [以SPSS为例]通过软件中的奇异值识别方法以用户ID为筛选标准，标记并找出重复值。如果ID相同的两个人属性完全一样，则取该用户放回数据集，如果不一样，则删除（不进行建模分析）。 4. 缺失值的识别与处理； 5. 奇异值、离群点的识别与处理； 6. 数据字段的增加、修改、衍生通过SPSS软件中的转换编码与计算变量的方法，增加“月均被叫次数”、“被叫次数方差”、“被叫次数变化率”；并将“信用等级”等数值型变量并离散化为“低星级”，“高星级”和“中星级”。 7. 数据降维使用SPSS自带的主成分分析方法将数据集从182个字段降维为50个字段进行分析，但是保留原始的字段。以分析主成分分析是否对建模的精度以及最终的分数产生影响。 8. 数据的拆分与集成考虑到初赛给的检验集是没有实际结果的。为了验证模型的准确性和迁移性，避免过拟合（泛化误差过大）的同时保证较低的训练误差，将预处理完成的数据拆分为训练集和测试集。训练集用于建立模型，测试集用于建延模型。 9. 其他需要说明的问题建模前主要数据预处理工作包括：基于客户号码关联经分字段与热线字段，部分非结构化字段结构化处理（如，性别，网络制式等），删除冗余字段（如，流量套餐ID与流量套餐名称等）和无意义字段（如，客户级别，用户级别等）。 10. 后续可以改进的方面（因为时间紧、工具乏、数据缺等原因，本次建模大赛尚未完成的，但是后续工作很值得去做的）。三、软件工具（10%） 1. 列入考虑范围的所有软件综述；列入考虑的软件包括SPSS Statistical，SPSS Modeler，Python，Spark，Excel。 2. 最终选择了哪些软件完成建模工作本赛中主要使用的软件为SPSS Statiatics和SPSS Mo