基于电信高端用户行为结构方程模型设计.docVIP

下载本文档

3
0
约3.18千字
约 7页
2018-06-23 发布于福建
举报
版权申诉

基于电信高端用户行为结构方程模型设计.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于电信高端用户行为结构方程模型设计

基于电信高端用户行为结构方程模型设计　　【摘要】结构方程模型（SEM）是一种验证性多元统计分析技术，在心理学、社会学和管理学等领域的应用日益广泛。本文在阐述结构方程模型基本概念和原理的基础上，介绍了结构方程模型在电信高端用户行为研究方面的应用。　　【关键词】数据挖掘；结构方程模型；电信高端用户　　1.引言　　数据挖掘（Data Mining，DM）又称数据库中的知识发现（Knowledge Discover in Database，KDD），是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程，它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，做出正确的决策。　　结构方程模型（Structural Equation Modeling，SEM）是测???和评估相结合的统计数据和定性因果关系假设的方法，在20世纪80年代就已成熟，应用于社会科学以及经济、市场、管理等研究领域，可以处理多个原因、多个结果的关系，以及不可直接观测的变量（即潜变量）。结构方程模型是数据挖掘的挖掘过程，可以确定两种或两种以上变量间相互依赖的定量关系的一种统计方法，分析数据内在规律，并可用于预报，控制等问题。　　电信高端用户行为研究就是分析电信高端用户的构成、特点及其行为活动上所表现出来的规律。就不同的研究目的和对象规模，用户行为可分为个体用户行为和群体用户行为。用户行为分析就是运用多学科知识研究和分析用户的构成、特点及其在通信过程中行为活动上所表现出来的规律。　　2.结构方程模型介绍　　2.1 变量分类　　显在变量（manifest variable）是指可直接观测和度量的变量，如年龄、温度、气压、职业、身高等。潜在变量（latent variable）指的是不能被直接观测的因素或特质，潜在变量可能是某种理论构思、研究假设，或者是尚不能用现有的方法精准并直接测量的客观存在，但它可通过显在变量度量，又称其为隐变量，相当于因子分析中的公因子。　　2.2 通径图的表示　　用通径图（path diagram）可以直观地表现SEM变量间的相互关系，通径图中各个变量的名称：为外生显在变量，为内生显在变量，绘制在方框中。为外生潜在变量，为内生潜在变量，绘制在椭圆中。、分别表示变量和变量的测量误差，表示用预测时的剩余误差。　　两个变量间的单向箭头表示一个变量（起点）对另一个变量（终点）的直接影响；两个变量间的双向箭头（曲线）表示这两个变量间可能互为影响，或两个变量可能是相关的；箭头上的数字表示效应大小。　　2.3 模型的表达方式　　SEM包括两种基本形式，一是藐视现在变量与潜在变量之间的度量关系，称为度量模型（measurement model）；另一种是描述潜在变量之间的结构关系，称为结构模型（structure model）。　　（1）度量模型：　　（2）结构模型：　　2.4 模型评价　　对整个模型的评价依赖于：统计量，拟合优度指数（GFI）和修正拟合优度指数（AGFI），均方残差的平方根（RMR），近似误差均方根（RMSEA），bentler的比较拟合指数（CFI），Akaike的信息准则（AIC）和一致的Akaike信息准则（CAIC），Schwarz的贝叶斯准则（SBD），正规化拟合指数（NFI）和非正规化拟合指数（NNFI），节俭正规化拟合指数（PNFI），临界指数（CN）等，实际研究中很难确定哪个准则全面地反映了拟合优度的好坏，而需要对各种准则综合考虑后才能对模型作出评价。　　3.基于电信高端用户行为的结构方程模型设计　　在设计模型时，数据准备使用IBM SPSS Statistics 19、clementine 12.0以及C语言程序，挖掘过程使用AMOS 17.0，这些基于windows 7 SP1操作系统。用来研究电信高端用户行为的数据选自中国安徽合肥某运营商2012年2月的用户资料、通话清单、短信清单。　　3.1 数据转换　　针对通话清单表和短信清单表对数据进行转换，确定变量。并提取清单中的电话号码，对每个电话号码的数据进行计数。　　3.2 数据标准化　　SEM模型对输入数据要求严格，必须进行标准化，其输入变量必须经过标准化才可以拟合模型。对于电信用户数据，首先绘制变量频率分布图和P-P图。发现其分布与标准正态分布差别很大，不利于SEM模型的验证性分析，遂对数据进行变量变换，根据数据特征采用两次平方根变换。其变换过程使用SPSS statistics软件实现，变换后数据的P-P图