- 2
- 0
- 约3.12千字
- 约 8页
- 2023-09-21 发布于四川
- 举报
深圳天源迪科信息技术股份有限公司
PAGE 1
版本:1.0
安徽联通用户流量分析模型
2012年01月12日
文件建立/修改记录
日期
版本
建立/修改内容
建立/修改人
审核人
批准人
2012-01-12
1.0
建立
孙宏方
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
工具选择与算法选择
选用Clementine建模工具里面的决策树算法C5.0对本网用户的流量使用情况进行分析,类别划分。
二、决策树算法介绍
决策树算法构造决策树来发现数据中蕴涵的分类规则.如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步进行。第一步,决策树的生成:由训练样本集生成决策树的过程。一般情况下,训练样本数据集是根据实际需要有历史的、有一定综合程度的,用于数据分析处理的数据集。第二步,决策树的剪技:决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下的过程,主要是用新的样本数扼集(称为测试数据集)中的数据校验决策树生成过程中产生的初步规则,将那些影响预衡准确性的分枝剪除。
1)树以代表训练样本的单个结点开始。
2)如果样本都在同一个类.则该结点成为树叶,并用该类标记。
3)否则,算法选择最有分类能力的属性作为决策树的当前结点.
4)根据当前决策结点属性取值的不同,将训练样本数据集tlI分为若干子集,每个取值形成一个分枝,有几个取值形成几个分枝。匀针对上一步得到的一个子集,重复进行先前步骤,递4I形成每个划分样本上的决策树。一旦一个属性出现在一个结点上,就不必在该结点的任何后代考虑它。
6)递归划分步骤仅当下列条件之一成立时停止:
①给定结点的所有样本属于同一类。
②没有剩余属性可以用来进一步划分样本.在这种情况下.使用多数表决,将给定的结点转换成树叶,并以样本中元组个数最多的类别作为类别标记,同时也可以存放该结点样木的类别分布,
③如果某一分枝tc,七砰如恤卜a*没有样本,则以样.本的多数类创建一个树叶。
决策树构造的输入是一组带有类别标记的例子,构造的结果是一棵二叉树或多叉树。二叉树的内部节点(非 叶子节点)一般表示为一个逻辑判断,如形式为a=aj的逻辑判断,其中a是属性,aj是该属性的所有取值:树的边是逻辑判断的分支结果。多叉树(ID3)的内部结点是属性,边是该属性的所有取值,有几个属性值就有几条边。树的叶子节点都是类别标记。
由于数据表示不当、有噪声或者由于决策树生成时产生重复的子树等原因,都会造成产生的决策树过大。因此,简化决策树是一个不可缺少的环节。寻找一棵最优决策树,主要应解决以下3个最优化问题:①生成最少数目的叶子节点;②生成的每个叶子节点的深度最小;③生成的决策树叶子节点最少且每个叶子节点的深度最小。
三、数据预处理及准备
首先关联本网用户资料信息表,联通用户资料半年汇总表,3G业务资料表,统计出用户收入,用户增值费用,用户年龄,用户在网时长与用户使用流量的关系,及按流量使用量,套餐内流量使用情况,套餐内流量剩余流量将用户分档统计(详细见附件)。后将用户资料11月份数据清洗(除去离网用户,测试卡用户,上网卡用户)后作为模型数据来源。取数sql如下:
create table spss_flow as (
select a.user_id,
a.phone_no,
a.online_dura,
(a.addval_fee + a.call_fee + a.month_fee) as arpu,
a.addval_fee,
NVL(A.net_flow, 0) / (case
WHEN trim(a.prodt_cde) = 42221 THEN
150
ELSE
p.RUN_COUNT_IN
END) as shiyonglv,
((case
WHEN trim(a.prodt_cde) = 42221 THEN
150
ELSE
p.RUN_COUNT_IN
您可能关注的文档
- 岗位职业病危害告知牌.doc
- 2019年3月全国计算机三级嵌入式考试题库第9套.doc
- 达芬奇飞秒激光.doc
- 记一件有意义的事作文范文6篇.docx
- 一件有意义的事作文5篇.docx
- 论民事诉讼中的证据交换制度.docx
- 手机电路ESD浪涌防护.doc
- 助学筑梦励志成才征文1200字.docx
- 消息写作练习参考样本.doc
- 全国网约车题库.doc
- 山西天一大联考2025-2026学年高二上学期期末学情监测语文试题(试卷+解析).docx
- 山西忻州部分学校2025-2026学年高一上学期2月质量检测数学试题(人教B版)(试卷+解析).docx
- 山西运城市2025-2026学年高二第一学期期末调研测试数学试题(试卷+解析).docx
- 陕西省榆林市榆阳区2025-2026学年八年级上学期期末地理试题(试卷+解析).docx
- 陕西西安市碑林区2025-2026学年度第一学期期末八年级生物试题(试卷+解析).docx
- 四川省广元市苍溪县2025-2026年八年级上学期期末道德与法治试题(试卷+解析).docx
- 江苏泰州市姜堰区2025-2026学年七年级上学期1月期末数学试题(试卷+解析).docx
- 江苏省扬州市邗江区2025-2026学年九年级上学期期末考试化学试题(试卷+解析).docx
- 江西上饶市铅山县2025-2026学年第一学期期末考试八年级数学试题(试卷+解析).docx
- 江苏扬州市高邮市2025-2026学年度第一学期期末学业质量监测试题九年级英语(试卷+解析).docx
原创力文档

文档评论(0)