夏令营B种子用户识别.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
手机用户精准识别之种子用户识别 摘要 本文通过对该城市二月份的用户资料表与短信清单表的数据进行分析,从中选取必要指标对该市的短信种子用户情况建立了评估指标体系模型,并通过这一评估指标体系对用户进行评分,找出其中的短信种子用户,最后进行优化,即为短信种子用户识别数学模型。 问题一 为了建立短信种子用户评估指标体系,我们选取了用户年龄、用户等级、是否3G用户、是否VIP用户、套餐档次(元)、消费金额、短信费、用户行业(银行、医疗等)、城乡标识9个预定指标,通过主成份分析[1]找出6个主要成份分别为:套餐档次、城乡标识、消费金额、短信费、是否3G用户、用户行业,对应的方差贡献为: 问题二 种子用户的识别模型,本文首先对38万用户进行筛选,初步得出种子用户的候选人,据种子短信常引起大量转发,种子用户要在短时间内大量群发种子短信,本文利用单日短信发送总量,各用户单日发送总量和每分钟发送量筛选出15个种子用户候选人,再利用变异系数法对第一问得出的综合评价指标进行加权,得到各指标权重分别为(0.34,0.031,0.274,0.056,0.133,0.163)根据各指标及指标权重对15名候选人进行评分,并选取所有用户的各指标平均值为标准值,得到的评分为临界值,大于临界值的候选人即视为种子用户,最终得到手机尾号问为719639,1175715等9名种子用户。 每逢佳节,一些人会自创或下载节日祝福或幽默短信并群发给其他用户,收到此类短信的人有时也会随手将其转发给其他亲朋好友。有些颇具创意的短信可能会引起大量的转发,其中短信种子用户起到了重要的作用。 所谓短信种子用户,又称“短信领袖”,他们在大量发送短信之后,能引起接收者的大量转发,形成强大的传播能力。请根据附件所给用户信息,建立数学模型,解决如下问题: 设计短信种子用户的评估指标体系; 结合评估指标设计评分标准,对本运营商的各用户的短信传播能力进行评分,从中筛选出符合要求的种子用户; 当前的数据量只是某城市的部分用户,假如对某省份的全量用户(超过2000万户)进行挖掘,当前算法是否需要优化。并结合现有数据估算全量用户的计算复杂度。 二、问题分析 三、模型假设与符号说明 3.1 模型假设 假设该城市没有短信写手,不用考虑平时短信的大量发送; 节日的短信发送都集中在节日当天,排除节前的祝福短信; 统计一个用户在1分钟之内(整分)发送短信的数量,超过了20条就算作进行了群发,群发数量达不到要求就不再统计此用户的群发短信量。 假设当出现一个用户在一定时间段内群发了n次(n=1)的情况时,取这n次中群发量最大的一次考虑。 不考虑两个人把短信发送给同一个人的情况。 符号说明 符号 说明 第主成分方差 第主成分 各项指标 变量系数 特征根 主成分载荷矩阵行平方和 主成分载荷矩阵行平方和 各指标变异系数 各指标权重 四、模型的建立与求解 4.1 评估指标体系数学模型 如何在众多的手机用户中根据数据给出的用户个人资料、消费情况等,挑选出短信种子用户,这是我们要解决的核心问题。针对此问题,我们考虑成份贡献率大小来寻求评估指标体系。 为了建立短信种子用户指标体系,我们选取了用户年龄、用户等级、是否3G用户、是否VIP用户、套餐档次(元)、消费金额、短信费、用户行业(银行、医疗等)、城乡标识9个预定指标。由于指标较多再加上指标之间有一定的相关性,势必增加了分析问题的复杂性。主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多滴反映原来指标的信息。因此我们采用主成份分析法的思想通过SPPS软件来寻求评估短信种子用户指标体系。 4.1.1 主成份分析模型原理 主成分分析是设法将原来众多具有一定相关性(比如个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。 通常数学上的处理就是将原来个指标作线性组合,作为新的综合指标。最经典的做法就是用(选取的第一个线性组合,即第一个综合指标)的方差来表达,即越大,表示包含的信息越多。因此在所有的线性组合中选取的应该是方差最大的,故称 F1为第一主成分。如果第一主成分不足以代表原来 P 个指标的信息,再考虑选取即选第二个线性组合,为了有效地反映原来信息,已有的信息就不需要再出现再中,用数学语言表达就是要求,则称为第二主成分,依此类推可以构造出第三、第四,……,第个主成分。 主成分模型: 满足以下条件: 每个主成分系数平方和为1即: 主成分之前互不相关 即: 主成分方差依次递减,即 首先在用户资料表(本城市本运营商2012年2月时在网的所有手机公众用户的个人基本信息、终端信息、套餐情况、费用情况等数据)的数据中提取用户年龄

文档评论(0)

lang8du + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档