网站大量收购独家精品文档,联系QQ:2885784924

家庭关系识别的数据挖掘模型.doc

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
家庭关系识别的数据挖掘模型

家庭关系识别的数据挖掘模型 ( ) 摘 要: 数据挖掘技术已经在各个行业得到了广泛应用,本文在总结前人研究的基础上,提出一种类似纵表的挖掘思路,并利用此思路和决策树技术,分析固定电话和手机号码的亲情关联关系模型,详述模型构建过程及思路,并对模型结果作验证分析。 关键词:数据挖掘,类似纵表,家庭关系,决策树 引言 一般数据挖掘所研究的表,是基于客户为中心的宽表,即一个客户一条记录,这样的横表对于统计和挖掘是非常方便的,但是其扩展性差,而纵表却具备这样的优势。如在通讯行业,用户在交往圈上存在较大差异,用一条记录来说明用户的交往圈是不恰当的,则需要利用纵表的优势,用一条记录来概括两个号码之间的关系,即号码对。一个用户的交往圈可以用多个号码对来描述,且扩充性非常好,同时同一用户的多个号码对(组内)又不是相互独立的,不同用户(组间)的号码对是相互独立的,这就是这种类似纵表的特点所在。 家庭关联关系模型构建 本文利用数据挖掘方法和技术,通过固定电话来分析和判断某一手机号码是否为家庭关联关系,这个方法同样适用于手机号码与手机号码之间为家庭关系的识别等等。 2.1 背景介绍及假设 截至2008年底.某运营商拥有固定电话用户2.14亿户,宽带接入用户4718万户,在固网方面仍然占据绝对的领先地位。承接了CDMA网络以后,迅速推出了以原有家庭客户品牌“我的E家”等新产品,并引入家庭关联关系模型,较好地将固定电话和CDMA手机进行融合。但是此模型是以CDMA手机号码来识别固定电话,所以只识别内网的家庭关系。为采取更有针对性的营销策略和异网策反,准确识别固定电话和本网和它网的手机号码为家庭关系尤为重要。 本文采用了一个假设条件:一个固定电话至少存在一个家庭手机号码。某个家庭固话与许多手机号码存在交往,根据通话的紧密度及其他指标,得到手机用户与该固话的家庭关系评分,选择评分为最大值的手机号码作为该固定电话对应的家庭号码。 2.2 数据收集和整理 根据以往发展的“我的E家”品牌,可以识别出一部分固定电话和手机号码为家庭关联关系,并以此作为原始样本,但是这些家庭数据存在一定噪声,在样本量满足要求的情况下,需要对数据进行清洗,目的为得到比较“纯”的家庭关联关系数据。如删除固定电话和手机号码登记的资料不一致,保留固定电话和手机号码为一对一的,删除登记资料存在错误的家庭数据,删掉月度无通话等等一系列手段,获取高纯度的家庭关系号码对,样本的纯度直接影响模型的精准度。 2.3 宽表数据设计 在通信行业,可以得到可靠和丰富的号码之间的详单数据。宽表预测的数据主要来自两个部分:基础数据,衍生数据。基础数据包括:主叫次数、被叫次数,时长等等;衍生数据则是通过数据分析或者统计学方法,找出显著特征的属性或者变量,衍生数据有时对于模型来说至关重要。衍生数据的设计:例如对于固定电话,同一家庭关系的手机号码,在通话次数、时长、时段、频率,交往圈等方面与其他手机号码存在差异,根据这些差异来设计宽表字段。而这种差异可以利用已知高纯度的家庭关系号码对中的固定号码的通话详单,在统计上具备显著性差异来衍生设计。如时长:固定电话与其家庭关系的手机号码平均通话时长为78秒,与非家庭关系的手机号码的平均通话时长为107秒,则可以设计短时通话次数;如时段:统计他们的通话时段不同分布情况,设计在周中下午17:00-19点之间的通话次数等等。从中可以看出衍生数据的重要性,同时衍生数据设计跟我们对业务的理解也是紧密联系的。 已知是家庭固话与其有家庭关联关系的CDMA 手机号码对作为建模正样本(标记为1)。而家庭固话与其有没有家庭关联关系的手机号码对为负样本(标记为0)。设计宽表字段如下: 字段描述 字段描述 固定电话 与其联系的某一手机号码 2个月平均主叫次数 2个月平均周中17-19:00主叫次数 2个月平均被叫次数 2个月平均周中17-19:00被叫次数 2个月总呼叫次数 2个月平均周中17-19:00总呼叫次数 2个月平均主叫时长 2个月平均周中11-13:00主叫次数 2个月平均被叫时长 2个月平均周中11-13:00被叫次数 2个月总呼叫时长 2个月平均周中11-13:00总呼叫次数 2个月90秒以内通话次数 2个月平均周末主叫次数 2个月90秒以上通话次数 2个月平均周末被叫次数 2个月平均最短一次通话时长 2个月周末呼叫次数 2个月平均最长一次通话时长 2个月平均通话时长 交往圈 家庭关系标志 在本次实验当中,这里交往圈的值未给出。 同时,需要考虑不同的家庭固定电

文档评论(0)

zhuwenmeijiale + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7065136142000003

1亿VIP精品文档

相关文档