- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类分析在用户分类画像中的应用——基于心理统计学的应用思路与案例解析
聚类分析(Cluster analysis)是对样本或指标进行分类的一种统计方法,属于探索性的数据分析方法。
聚类分析将看似无序的对象(如桌子、人、树木、情绪、观念等)进行分组、归类,按照个体或样本的特征将其分类,使得同一类别下的个体具有尽可能高的同质性,而不同类别/组别之间则是尽可能高的异质性,以更好地理解研究对象。
物以类聚,人以群分。借助聚类分析算法,可以帮助我们窥探不同人群之间的数据差异(如图1)。因此,此种方法也被应用于基于定量数据的用户分类实践中。
图1:二维(2个变量 )下的聚类分析示意图
然而,由于聚类分析所使用的数据并没有明确的分类,聚类分析后的类别数量也是未知的。
即:我们不知道用来聚类分析的样本大概有什么分布,也不了解系统会将其分成哪几类,事先可能也没有任何有关类别信息供参考。
因此聚类分析更像是一种建立假设的方法,而对相关假设的检验还需要借助其它统计方法,在用户画像的生成过程中,建议将聚类分析当做一种探索分类结构、提供数据支撑的手段,而非(也不可能)完全依赖于聚类分析来形成最终用户分类结论。
以下结合某金融借贷服务流程再设计中的用户分类案例,来具体阐述聚类分析在用户画像中的应用。
01 聚类分析适用的数据类型
聚类分析所应用的数据类型主要为多维度、连续/等级/分类变量,且要求数据量足够大、客观可测量,因此,较为适合应用于研究者已拥有海量、多维度用户客观数据的情况。
数据来源如:已经运营一段时间的产品后台数据、电商浏览购买行为数据、客户CRM数据、微信公众号后台数据等。
基于这些数据,我们可以以用户实际产生的行为数据(如:点击次数、转发次数、使用频率等)、人口学资料数据等客观数据将用户分成数类。正因此,聚类分析被广泛应用于消费者行为研究、细分市场研究、电子商务运营策略研究等关注人群、市场和消费行为的研究项目中。
聚类分析介入用户分类的程序:在用户研究工作中,用户分类可以基于定性或定量数据来进行,但最终会收敛为一个具体、明确、符合经验的分类模型,使之能够服务于未来的产品设计与运营。如图2:
图2:2019微众银行用户调研之人群画像
仅依靠数据无法帮助我们定义和解释不同类别下的样本轮廓,也无法将统计结果直接运用于生产设计和运营活动中。
因此聚类分析的方法应当结合前后期的定性研究(如产品走查、用户访谈、内部访谈、观察、工作坊等)和定量研究(问卷调查、拦访调研、接受度测试等)而进行。在本案例中,研究者采取了先定性,后聚类,再补充定量的方式,来形成和运用聚类分析的结果,如图3:
图3:金融借贷服务流程再设计-用户画像创建流程
再者,从机器学习角度上来说,聚类分析是一种无监督学习?unsupervised learning,根据不同的数据选取策略和不同的聚类算法,系统会给出不同的分类模型。
至于哪个模型是贴合研究实际的“最优解”,需要研究者自行决定。这意味着在做用户分类时,我们所依赖的工具需要在研究者所提供的浩如烟海的数据当中根据数据的分布形态,逐渐探索出数据的分类形态,因此最终数据分类的结果质量对研究者对数据的理解、把握和解读有着更高的要求。
这要求研究者在使用数据进行聚类之前,应当对数据的业务内涵具有相当程度的把握和敏感性。
02 聚类分析用于用户分类的操作流程
1)样本数据选择
根据前期的定性研究和已经生成的假设,选择能够用来描述和定义用户的数据维度。在本案例中,通过定性访谈、内部访谈等研究,研究者已经得知,不同用户在借贷周期、借贷金额、还款履约行为、犹豫周期上存在着很大差别,因此,研究者可以有目的地选择可能有用的数据。可以列出所需维度的数据清单,向数据负责人获取。
在选择数据时,也可以查阅相关文献,如行业竞品常用的数据/参数模型,建立对研究所需数据标签的感知。图4为本案例在选择样本数据时参考的某银行产品用户标签体系。
图4:某银行金融产品用户标签体系
2)样本数据清洗
这一步骤的目的在于去除缺省值、异常值、不合理值、非研究范畴值,研究者可以根据项目的实际需求,去除可能成为干扰项的数据。如:对收入进行标准化处理,剔除3个标准差外的异常值,去除超越研究范畴(如60周岁以上)的样本。
注意保存清洗逻辑并在团队成员间共享,以便随时恢复被误删除的数据。
3)数据编码及标准化
涉及到数据类型的转换和数据可读性的调整,由于聚类分析需要用到一定规模的连续变量和分类变量,对于一些界定模糊的变量,需要团队成员商议后给予其明确的数据类型定义,并给出相应的定义值。此外,注意保存这些编码逻辑,业务数据往往夹杂着诸多术语和缩写,研究员需将其转为易读的符号并加以记忆。
如图5,本案例中,申请类型、进件渠道、还款方式属于分类变量,B卡评分描述了用户的信用程度,则可以定义为
您可能关注的文档
最近下载
- 北京市第四中学2024-2025学年高二上学期期中考试化学试卷(含答案).docx VIP
- 电动自行车用锂离子电池和电池组 技术规范.docx VIP
- 胃肠疾病的超声诊断答案-2025年度华医网继续教育.docx VIP
- 英文电影赏析(共46张精品课件).ppt VIP
- 人工智能在医疗行业的应用PPT .pptx
- 小学道德与法治五年级上册第四单元《骄人祖先-灿烂文化》整体教学设计.docx
- 坏死性筋膜炎.ppt
- 网络操作系统(Windows Server 2008)课件(共13单元)项目8、配置DNS服务器.ppt VIP
- 10S505柔性接口给水管道支墩图集.docx
- 一种用随机点尿来评估高血压患者每日食盐量的方法.pdf VIP
文档评论(0)