- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于PSO电信业数据关联规则挖掘
基于PSO电信业数据关联规则挖掘
摘 要:针对传统的关联挖掘算法无法结合时间属性把握电信业数据的变化趋势而出现关联误判,效率不高的问题,提出动态感知PSO的电信业数据关联规则挖掘方法,用时间点压缩法对连续数据进行离散化,使用包含趋势属性的三元素模式对粒子进行编码。粒子迭代的适应值做为动态感知变量改进粒子的更新规则。实验结果证明,这种方法能够有效地对客户消费趋势进行预测,大大提高了关联挖掘的效率与准确率,具有很强的实用价值。
关键词:电信业关联挖掘;变化趋势;三元素编码; PSO
中图分类号:TP301.6 文献标识码:A DOI:10.3969/j.issn.1003-6970.2013.06.014
0 引言
电信行业的竞争愈演愈烈使运营商面对着严重的客户流失的问题。如何将管理活动精确细分、重视营销的个性化来挽留客户防止客户流失成为各大运营商关注的焦点[1]。客户的日常通信行为为运营商积攒了大量的数据,这些数据蕴藏着丰富的客户消费行为习惯,对客户的消费行为、客户服务信息和缴费情况等数据进行分析挖掘可以对客户实施个性的客户业务推荐来挽留客户,提升客户价值[2-3]。通过关联规则进行客户的业务推荐是各大运营商常用的技术,伴随着各种改进的关联挖掘算法也出现了各种优秀的数据仓库与挖掘系统应用在电信业的客户消费行为数据挖掘中[4-5]。
客户在消费行为中常常存在着一定的趋势属性,传统的关联挖掘算法应用在电信业客户消费行为分析挖掘中仅仅将客户的消费记录数据进行单独的数据预处理,通过频繁项集的计算来进行支持度与置信度约束下的关联挖掘[6-7]。这种方法忽略了记录间存在的变化与联系,造成了关联挖掘的误判,挖掘的效果达不到要求。
为此提出了动态感知PSO关联的电信业客户消费行为分析方法。将群体智能的搜索优化技术通过目标函数的设计与关联规则挖掘进行联系。使用重要时间点压缩的方法对连续数据进行预处理与相似形度量,这种处理可以保留数据的趋势属性。通过包含时间变化的三元素微粒进行粒子的编码,并且通过目标函数的反馈来动态调整粒子的更新参数。实验证明,这种机制下的电信业客户消费行为关???挖掘准确率较高且挖掘的效率也大大提升,有很强的实用价值。
1 关联挖掘的数据预处理
电信业客户消费行为关联分析的数据源来自多个表或者系统,在客户的通信消费记录中大部分是连续型的数据,而关联规则处理的数据应该是离散型的数据。传统的离散方法是采用区间化的数据处理办法,将连续型的数据区间化分为不同的子区间,并且使用某一个数值代替该区间中的所有数据,设代表客户消费行为的某一属性,且,将划分为
每一个区间分别使用一个值来代表。这种处理方法会丢失数据中蕴藏的很多信息,特别是无法将客户消费行为的变化趋势信息保留。本文使用时间压缩的方法来进行数据的离散化。对离散化的数据使用相似形度量的方法来进行频繁模式的获取。
设客户的某一属性的时间变化趋势如下图的曲线所示:
图1 趋势属性的时间压缩图
在图1 中选取重要时间点作为区间的划分边界点,如上图横坐标的所示,设对应的属性数据值为,如果存在个子序列的划分,上述的曲线可以表示为:
(3)
为了描述上述的属性的趋势信息,使用最小二乘法的思想,将每一个序列分别拟合为直线,这样每一个区间就可以表示为一个元模式,,每一个元模式不但表述了该属性在区间的范围还相应提供了区间变化的趋势信息,这样时间序列的模式表示为:
(4)
将关注属性的压缩时间点进行同步后,对每一个时间序列的属性进行上述的区间化,不但可以表征该数据的区间范围,还将该数据所属的区间变化趋势表现,实际证明这种区间化的方法能够更好地应用在电信业客户消费行为的关联分析中。
在一些变量中由于业务的原因,某些变量之间存在着巨大的相关性,比如客户的长途次数与长途时间这样的变量在建模的过程中同时使用是没有必要的,有时对模型的运行还会存在一定的副作用。数据预处理中关于变量的约简就是尽量地减少信息量情况下寻找更低维的变量。主成份分析法是统计中最主流的约简方法,但是本身的结果就是若干信息量的综合,即使经过了因子旋转处理后也难于优化[8]。本文选用下面的两种简单的步骤进行维数简约:
1)利用众数的分析方法找出微效变量,特别是众数表示值为0的一些变量,比如某客户的国际长途次数这样的变量,就可以在模型中去掉。
2)利用相关系数的分析方法解决变量间存在的线性冗余的问题:
(5)
两两变量经过相关系数公式的分析以后,选取的高度相关组中的某一变量作为代表。如果则要根据实际的模型情况对变量约简进行分析。
在数据挖掘的整个过程中,数据的预处理的工作量能占到80%。电信业的IT系统众多,其企
文档评论(0)