- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
模块简介模块定位本模块负责提供流量提升专题中的机器学习功能,目前内置基于R语言和SPSS的决策树算法功能,对Tas前台下发的机器学习任务进行全自动处理并输出,实现对流量提升的各关键指标变量的影响度计算,决策树规则集图表输出等功能,后续基于此框架可拓展内置其他各机器学习算法,实现全面而稳定的基于流量提升的全自动机器学习平台。模块边界图:模块功能模块功能概述配置模块:决策树类型选择,决策树参数配置。输入模块:任务列表文件和样本数据文件。调度模块:调度处理输入的数据文件到机器学习模块。机器学习模块:内置基于R和spss的机器学习算法。输出模块:输出指标影响度,规则集。功能详述模块提供基于R语言和SPSS的集成和自动化功能。内部处理流程配置模块功能详述:决策树类型选择,决策树参数配置。配置文件名:decetree.config配置文件格式:Type:(类型选择)0—R, 1—SPSSNa.action: (缺失值处理)0—仅剔除y值,1—剔除缺失所有输入变量的样本数据Method:(决策树类型)连续型 anova ;离散型 class ;计数型(泊松过程) poisson ;生存分析型 expMinsplit:(节点包含样本数的最小值)20—100Minbucket: (叶节点包含样本数的最小值)7—33Cp:复杂度参数0.01—1 Maxdepth: 树的高度0—100Control:U(不对树剪枝),C(对剪枝过程设置置信阈值),M(对每个叶节点设置最小观测样本量),R(按照错误率递减方式进行剪枝),N(交互验证的折叠次数),B(构建二叉树)模块输入输出1),输入。决策树规则集训练指标数据文件,每日24点生成任务列表,数据文件到服务器/data_machinelearning下。任务列表:调度程序定时根据任务列表取数据文件。文件命名方式:Machinelearning_task文件内容:任务号,年月日.data例如:1data2data数据文件:决策树算法根据数据文件输入的各数据指标生成规则集和指标影响度。文件命名方式:年月日.data文件内容:首行为标识名称,标识用逗号间隔。数据行字段用逗号间隔,每条记录独立占一行。格式举例:手机号码,地市,品牌,年龄… 370,3,24 370,3,25 371,4,25…数据文件详细指标如下:手机号码,地市,品牌,年龄,是否集团,性别,入网时长(月),是否,是否高价值用户,欠费客户标识,总费用,月租费,通话费,流量费,短信费,漫游通话次数,长途通话次数,点对点短信条数,其他短信条数,gprs_cmnet次数,gprs_cmwap次数,主叫次数,节假日通话时长,当月通话对端号码个数,是否智能手机,用户重点APP流量,用户本月TOP应用使用个数,本月超套标识2),输出边界:(1), 文本的决策树,各字段影响度。决策树支持文本输出文件名:任务号_年月日.decetree例如:1decetree格式如下:1) root 45 19 A (000 2) 发动机功率=134 26 2 A (000 4) 价格=11222 20 0 A (100 * 5) 价格 11222 6 2 A (000 10) 发动机功率 152 4 0 A (100 * 11) 发动机功率=152 2 0 B (010 * 3) 发动机功率 134 19 9 B (000 6) 车重=2285 14 4 B (000 12) 价格=12302 3 1 A (000 * 13) 价格 12302 11 2 B (000 * 7) 车重 2285 5 0 C (001 *解析举例:2) 发动机功率=134 26 2 A (000“2)”为决策二叉树
文档评论(0)