- 1、本文档共72页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Teradta中国电信离网预警模型建设及应用
决策树模型基于不同的分支算法进行分支或剪枝,不同的数据挖掘工具提供的分支和剪枝算法也不尽相同。通常选择信息增益率(Gain Ratio)进行分支,可根据模型的效果进行灵活选择分支算法,如:利用基尼系数(Gini Index)或卡方检验(Chaid)算法。同样,剪枝算法可根据实际情况灵活筛选; 一个对于模型调整比较有用的参数,一般情况下,叶节点越小,对于训练集的数据就拟合的越好,但是可能产生过拟合的情况,对验证集或者实际的数据拟合效果下降剧烈。反之,叶节点越大,对于训练集数据的拟合可能不够充分,但是对于验证集数据的拟合效果下降不会太多。总之 * 定义数据集 以宽表数据为基础,根据不同时间段加载为三份数据集,数据集的定位如下: 训练集:定位于模型初建,用于离网预警模型的初始化; 测试集:定位于模型优化,用于离网预警模型的初次验证及优化; 验证集:定位于模型终验,用于离网预警模型应用前的最终验证。 C网数据集提取时间建议: 训练集:输入变量统计时间为10年1月、2月、3月,输出变量时间为10年7月; 测试集:输入变量统计时间为10年2月、3月、4月,输出变量时间为10年8月; 验证集:输入变量统计时间为10年3月、4月、5月,输出变量时间为10年9月。 09年12月 1 2 3 4 5 6 7 8 9 10 11 09年12月 1 2 3 4 5 6 7 8 9 10 11 09年12月 1 2 3 4 5 6 7 8 9 10 11 训练集 测试集 验证集 变量筛选方法——相关分析 在进行相关分析之前,可先使用散点图进行初步观察,确认两个变量有相关趋势,在进行相关分析。 相关分析输出的结果是变量间两两相关的系数,即相关系数,其值在【-1,1】之间,绝对值越大,表明相关性越强;系数为正,表示变量之间正相关;系数为负,表示变量之间负相关。 观察与宽带离网用户最相关的变量,基于相关分析得出以下相关系数,筛选出排名靠前的聪明变量:零次上网月份数、零次上网天数等: 作用:找到与因变量最相关的聪明变量 相关分析示例 用全部输入变量建模精度较高,但工作周期较长、工作量较大。各省可根据实际情况,对全体输入变量进行筛选,筛选出预警价值高的“聪明变量”,用筛选后的“聪明变量”作为预警模型的输入变量,提高模型训练效率,“聪明变量”的筛选方法通常采用相关分析和因子分析。 变量名称 离网标识 零次上网月份数 0.2474 当前累计欠费月份 0.2054 零次上网天数 0.1975 当前累计欠费金额 0.1216 历史停机次数 0.0853 最近一次停机账务月 0.0171 关联固话停机数量 0.009 宽带到期剩余月份 0.0072 ……… ………… 变量筛选方法——因子分析 因子分析示例 将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子(之所以称其为因子,是因为它是不可观测的,即不是具体的变量)。运用这种研究技术,可以方便地找出影响用户离网的主要因素是哪些,以及它们的影响力(权重)。 作用:对海量的自变量进行约简 说明:前5个公因子的方差贡献累计占全部公因子方差贡献率的90%,即前5个公因子代表了原始指标的90%的信息。 见如下示例。 因子 指标大类 指标说明 权重 因子1 通话类指标维度 通话时长、次数、趋势等 0.36 因子2 上网类指标 上网流量、时长、趋势等 0.18 因子3 拨打客服通信行为指标 拨打客服、竞争对手客服等 0.13 因子4 欠停费情况指标 零次通话次数、欠费停机次数等 0.12 因子5 呼转指标 呼转次数、时长等 0.11 训练集、测试集及验证集抽样 训练集:C网模型中离网用户占总体用户3.4%左右,选择3月宽表数据建立测试集,保持正样本(离网用户)不变,适当增加负样本(正常用户),正负样本比例通常选择1:5、1:6、1:7、1:8、1:9和1:10进行训练; Model (粗糙) 验证模型 模型评分 测试模型 训练模型 Model (改进) Model (最优) 预测 3月 2月 1月 分析期 反应期 7月 4月 5月 6月 预留一月,进行短信或电话营销 测试集:选择4月宽表数据建立测试集,正负样本比例通常保持原始比例; 验证集:选择5月宽表数据建立验证集,和测试集一样,正负样本比例通常保持原始比例; 总之,通过测试集和验证集的反复检验找到一个最优的训练集合,从而对在网用户的离网倾向进行预测。 模型算法选择 根据以下几条标准对各种分类方法进行比较: 预测准确率,它描述(学习所获)模型能够正确预测未知对象类别或(类别)数值的能力。 速度,它描述在构造和使用模型时的计算效率。 鲁棒性,它描述在
您可能关注的文档
最近下载
- 专题01 定语从句100题(考点串讲)(word版有答案).docx VIP
- 凿井井架设计汇编.doc VIP
- 北京某电力隧道工程投标施工组织设计.doc VIP
- 《【阅读专题2】故物与深情:感受血缘中的亲情》教学课件.pptx VIP
- 人教版九年级英语 课文标注笔记 全册.pdf VIP
- 北京某电力隧道工程(投标)施工组织设计.pdf VIP
- 高压旋喷桩技术交底1 - 桩基础.docx VIP
- 17J008 挡土墙(重力式、衡重式、悬臂式)(最新).pdf VIP
- 《【阅读专题1】忠与孝:体会宗法社会的伦理选择之难》教学课件 (1).pptx VIP
- 力普LP100说明书PDF_Image_Marked.pdf VIP
文档评论(0)