用户分层研究方法 以集市卖家为例.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用户分层研究方法——以集市卖家为例 写在前面:本文是笔者以往研究的经验总结,由于涉及敏感数据,故作了虚化和符号化处理,读起来会有些费劲,但数字呈现不是主旨,本文侧重用户分层研究的方法,希望能给大家提供一套做用户分层的研究思路和操作流程。 ? 本文讨论的是用户分层,有别于常规的用户细分,最大的区别在于分层是定序的概念,即各层之间有递进关系;而常规细分是定类的概念,即各类之间相对独立。广义上而言,细分包括分层。 现以集市卖家分层为例,介绍整个研究方法。根据以往卖家研究的经验,选取参与卖家分层的重要变量,从BI提取了100万集市卖家的相关数据。 重构变量 首先对100万集市卖家数据进行清洗,考察各重要变量的分布情况。由于一些定距变量存在超出正常范围的数据,如交易数量、交易额等;一些定序变量两端组的样本过少,如卖家星级、店铺类型等。这些都不利于模型的建构,因此将每个待分析变量都细分出若干组,原则为:组尽量多,能与定距变量更相当;每组的分布尽量保证在正常范围内,避免出现异常值。调整后的分组情况表略。其次,需要查看一下各变量的方向,后续分析的时候,根据输出的统计量来观察各变量之间是否有不同。如果方向有不同,最好能做相应的调整。 将100万数据随机拆分出三个60万的数据库,四个数据分别作后续分析,以保证所得指数的稳定性。 因子分析 首先对重要变量做因子分析,去除变量间的多重共线性,经多次尝试,剔除了支付宝交易量和交易额的结果更加稳定,且更符合业务经验。最终得到的KMO值为0.788,Bartlett 球形检验显著,非常适宜进行因子分析。最终萃取出6个公因子,依次为GMV与星级、时长情况、订购服务情况、旺铺类型、实物商品、是否参加消保等,累积方差贡献率为90.4%(详见下表),解释效果很强;变量原始矩阵与重构矩阵之间的残差0.05的个数比例为10%,拟合效果也非常好。 经多次验证整个因子分析非常稳定,前三个因子的累积方差贡献率达到60%,为主要因子;后三个因子的累积方差贡献率为30%,是次要因子。这与日常业务经验也非常吻合。 分层 利用六个因子得分可以算出每个样本的因子综合得分,其中六个因子得分软件能够自动计算出来;各因子得分在因子综合得分中所占比例,可由(每个公因子的方差贡献率/累积方差贡献率)算得(详见下表),也可以直接使用每个公因子的方差贡献率。 因为因子综合得分为标准化值,利用(X-最小值)/(最大值-最小值),将其转化为0-100的指数,然后按照指数高低,并结合实际现状对其进行分层,TOP1为指数最高的10%,TOP2为指数次高的20%,TOP3为指数次高的30%,剩余的是第四层,指数最低的40%。此种划分方法比较简单,数据也较稳定,利于实际应用。各组上下限如下表,此种划分的上下限可以固定下来,逐步修正。 判别分析 按照7:3的比例划分为分析样本和验证样本,利用判别分析对这四层划分结果进行检验,即用6个因子得分与层级做判别分析。所得判别函数对区分各层均有显著贡献,且第一个判别函数解释的方差贡献率达到98.2%,为主函数。使用组内协方差阵计算,分析样本和验证样本的正确率、交叉核实法的正确率均为91.6%,达到很高的水平。 各层卖家在重要变量上均存在较明显的差异,详情如下: 从六个因子中找出解释力较高的关键变量,并根据实际业务经验判断是否合适,最终选定了七个关键变量。它们直接与层级做判别分析,第一主判别函数的方差贡献率为97.8%,使用组内协方差阵计算,分析样本和验证样本的正确率、交叉核实法的正确率均为85.0%,也达到很高的水平。 回归分析 为了方便应用,简化分层的计算过程,用判别分析中确定的七个关键变量与因子综合得分指数作回归分析,以考察他们的解释力。 回归分析结果显示,R、R Square、Adjusted R Square分别为0.985、0.970、0.970;剩余标准误差为2.709,达到较小的水平;Durbin-Watson的值为1.252,与2有一定差距,残差间的独立性尚可,综合判断,模型解释效果非常好。 多重共线性方面,卖家星级的容忍度值最小为0.39,第八个主成分的条件指数小于15,表明不存在严重的多重共线性。 各变量的主要指标如下: 经标准化偏回归系数和偏相关系数共同分析,可知开店时长、近三个月GMV金额、卖家星级等对因子综合得分指数的影响更重要。 因子综合得分指数=a+b1*卖家星级分段+b2*开店时长分段+b3*近三个月GMV总金额分段+ b 4*店铺类型+ b 5*是否主营实物+ b 6*订购服务个数分段+ b 7*是否参加消保 因此,通过这七个关键变量预测因子综合得分指数非常合适,得到新的因子综合得分指数后,根据上文中的上下限临近值,即可划分卖家层级。 综上所诉,研究流程归纳如下: 1、根据以往研究中对

文档评论(0)

大漠天下 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档