- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第4组_职场新人手用户精准识别
福州大学第八届数学建模竞赛
A题 职场新人手机用户精准识别
参赛组号:4
参赛人员:
何立鹰 110320051 (组长)
陈丽珠 110320038
陈赛英 110320020
福州大学第八届数学建模竞赛
A题 职场新人手机用户精准识别
摘 要
本文基于统计的思想,并利用数据挖掘技术,对职场新人手机用户识别的方法进行了研究,并设计出一套用户识别的模型体系,该体系能够对职场新人手机用户进行有效识别。这个模型体系主要包括六个步骤:数据预处理、数据分析、模型建立、结果输出、模型验证、用户识别。
将已知数据导入SPSS统计软件中,并在SPSS软件环境下对数据进行预处理、相关性分析,得出各个特征的相关性系数,从而进行特征降维,并从中获取决策特征:用户级别、套餐档次、消费金额、是否3G用户、资费变更次数、手机操作系统类型。
根据分析结果建立模型,采用比例标度法对上述六个决策特征进行权重计算,并对用户的特征数据进行数据标准化处理。最后使用特征指数计算模型进行得分计算,根据输出结果和参考信息进行用户识别。
本建模对于问题一,利用SPSS对影响本网用户是否为职场新人手机用户的最重要的六个特征等进行了统计分析,对相关量的平均值、最大最小值以及方差进行了计算,并进行相关性分析,得出了判断是否为职场新人手机用户的准则。
关键词:职场新人、用户识别、SPSS、层次分析法、比例标度法
一、问题重述
随着移动通信、互联网业务的迅速发展,手机已经从生活奢侈品变成了生活日用品,是人们日常生活中不可缺少的一部分。人们随时随地使用手机打电话、发短信、上网,而用户的这些行为以及其个人基本信息均在运营商中有所记录。
职场新人,通常指处于毕业前的实习阶段或刚毕业离开校园(专科或专科以上学历)工作不到一年的年轻群体。他们虽然收入不高,但暂时也没有太多压力,经常追求新鲜事物、乐于且敢于消费。他们有着各自的职业追求,是社会的潜在精英,将成为运营商未来的高端用户。
下面给出某城市某运营商的手机公众用户数据,其中:
用户资料表:本城市本运营商2012年2月时在网的所有手机公众用户的个人基本信息、终端信息、套餐情况、费用情况等数据;
通话清单表:记录了上述手机号码在2012年2月份每天的通话情况,包括主叫、被叫以及市话、长途和漫游通话;
短信清单表:记录了上述手机号码在2012年2月份每天的短信发送和接收情况。
为了便于针对不同用户推出合适的产品和服务,需要精准地识别用户类型。请结合以上三张表,识别该城市的职场新人。
二、基本假设
1)假设本网手机用户的行为特征在相当长的一段时间内没有太大的变化。
2)本网手机用户的等级是相对固定的。
3)手机用户定时缴纳话费及相关费用。
4)假设获取的用户信息都是真实的、准确的。
5)假设用户信息可以准确量化。
6)假设身份证归属地、性别、号码办理日期对分析是否是职场新人没有影响。
三、符号说明
G 目标层 PROB_LEVEL 套餐档次 C 准则层 CUST_LEVEL 用户级别 P 方案层 OS_TYPE 操作系统类型 A 判定矩阵 IS_3G 是否3G用户 W 权重向量 CONSUME_AMT 消费金额 SCORE 加权得分 OFR_CHANGE_CNT 资费变更次数 四、问题分析
根据搜到的相关资料以及对数据的分析,我们给出职场新人的相关定义:
年龄基本上在20岁以上,28岁以下。
经常追求新鲜事物、乐于且敢于消费,具有较高的消费倾向。
需求多样化,个性化和高档化,喜欢高质量高价值的品牌商品。
由于数据量大,因此小组决定采用SPSS[1]数据统计软件进行数据处理。经过初步数据分析后,发现数据中99.9%的用户停机次数为零,因此该特征对决策的贡献不大,将不作为决策特征。用户信息中的身份证、性别特征与用户是否为职场新人关系粘滞度较弱,因此SPSS统计时不对这两个特征进行分析。
经过对问题分析后,小组制定出本次建模的基本处理流程,如下图1所示:
图1
五、模型建立及求解
5.1 数据分析及特征降维
针对所给数据中的用户特征字段,包括本网手机号码、城乡标识、身份归属地、是否3G等25个用户特征字段,进行数据分析前先进行数据预处理,如将操纵系统类别映射为0-2区间值,用户年龄为空或者值非法将其置为0等。手机操作系统类型预处理,如图2所示:
图2
首先,将数据导入SPSS软件后,使用分析-描述统计-描述,功能统计字段的均值、方差、最大和最小值等,分析样本数据数据分布情况,统计结果如图3所示(图中特征字段代表意义见附录一):
图3
其次,使用SPSS软件的分析-相关-距离,计算变量间的距离,对结果进行标准化[2]到0-1区间,使用Pearson方法
您可能关注的文档
最近下载
- 初中语文说明文阅读及答题技巧课件(47张课件).pptx VIP
- 2026届湖南省常德市第一中学高三数学第一学期期末联考试题含解析.doc VIP
- 徐埃小学汇报预案.ppt VIP
- 广东省百校2026届数学高三第一学期期末联考模拟试题含解析.doc VIP
- 染色体端粒和端粒酶.ppt VIP
- 2025-2026学年北师大版九年级数学上册期中考试卷(带答案).docx VIP
- 2025年民航招飞pat测试题目及答案.doc VIP
- 新目标(第二版)视听说B3U3 测试试卷答案.pdf VIP
- 2024电力建设全过程工程咨询导则第1部分输变电工程.pdf VIP
- 北师版四年级数学上册第三单元测试题含答案.pdf VIP
原创力文档


文档评论(0)