浅谈聚类分析在用户研究中的应用_社会学论文.docVIP

下载本文档

45
0
约3.09千字
约 3页
2018-09-29 发布于河北
举报
版权申诉

浅谈聚类分析在用户研究中的应用_社会学论文.doc

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浅谈聚类分析在用户研究中的应用_社会学论文

浅谈聚类分析在用户研究中的应用_社会学论文社会学论文作者简介:杜海(1986—),男,汉族,东淄博人。西南大学文化与社会发展学院硕士研究生,研究方向为管理心理学。摘要:聚类分析属于探索性的数据分析方法,可以将看似无序的对象进行分组、归类,以达到更好地理解研究对象的目的。本文以用户研究过程中经常遇到的用户分类为例,系统介绍了聚类分析的意义和操作过程。在实际工作中,聚类分析获得的结果得到了重要的应用。关键词:聚类分析;用户研究;分类中图分类号:F830 文献标识码:A 编号:1006-026X(2012)08-0000-01 1、聚类分析的意义聚类分析是将数据分类到不同的组的统计分析方法,要求组内的对象差异性较小,而组间的对象差异性较大。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。在用户研究的过程中,经常需要对用户进行分类。比如,在市场运营方面,需要发现不同的用户群,并且通过购买模式刻画不同的用户群的特征,从而研究消费者行为,为市场营销做好铺垫;在电子商务方面,需要将具有相似浏览行为的用户进行分类,并分析用户的共同特征,以便更好的了解用户,为用户提供更合适更人性化的服务。在聚类分析之前,必须明白一个问题:怎样对用户进行合理分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。因此,要想聚类结果是合理的,有用的,就要与实际的业务情况充分联系起来。以电子商务为例,从活跃度上分一般可分为活跃用户,非活跃用户和流失用户;从经济条件上可分为低端用户和高端用户,学生用户和白领用户;从操作频率上可以分为初级用户,普通用户,高级用户等。分类的维度有很多,怎么判断某个分类的效果哪? 用户分类的效果主要从下面两个方面来判断:分类的信度和效度,也就是分类的准确性和精确性。分类的准确性是指分完类后,是不是现实中每一个用户都能定位到反映该用户的类别,也就是说任何一个用户都能给他贴上属于某个类别的标签;而分类的精确性是指得到的用户类别在多大程度上反映了实际用户所包含的属性含义,也就是说用来描述各类别用户的特征信息与实际用户所有属性的吻合程度。在实际分类中准确性和精确性往往不能同时达到完美,当你追求100%的准确性时精度肯定会下降,比如只用性别去划分用户,准确度很高但是精度不够,所以在实际用户分类时找到准确性和精确性的一个平衡点,达到自己分类目的即可。一般来说,用户分类时需要从多个维度的特征因素去考虑如何划分用户。比如用户的人口学信息,用户的计算机背景,上网地点,收入水平,职业,地域,用户对于该产品的一些使用经验和偏好,使用过哪些同类产品,使用的目的是什么,认为哪款最好用,影响选择某款产品的因素有哪些,通过哪种途径得知的,使用产品的态度,使用产品的具体行为等因素。[1] 2、数据获取和预处理数据的获取一般有两种,通过问卷调查实时收集,以及从数据库中调取。如果是通过问卷调查获得数据,就要先把多个维度都列出来,然后针对这些维度进行用户访谈,通过访谈能够得到大概的用户间的共同点和不同点。然后把所有因素转化成问卷题目,通过科学抽样的问卷调查得到用户调查数据[2]。如果想从现有的数据库中提取,就要根据这些维度选取相关的变量参数,再根据参数从数据库中筛选。如果获得的数据量较大,那么在聚类之前,首先要对数据进行处理。观察各项描述性统计量,看其中重要变量的分布情况。如果变量的分类比较多,那么有必要对变量进行压缩。对于属性变量而言,可以考虑将其变成哑变量。引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明。如果某个因素有n种选择,则将其用哑变量引入模型时,要设置n-1个哑变量,以避免完全的多重共线性。例如性别的选择有两种,则引入一个哑变量。(是男则数值为1,否则为0,当然也可以设置为女为1,否则为0。)季节的选择有4个,则引入3个哑变量。(哑变量1:春为1,否则为0。哑变量2:夏为1,否则为0。哑变量3:秋为1,否则为0)对于连续变量而言,可以考虑使用主成分分析或因子分析的方法,去除连续变量之间的多重共线性。因子分析时,首先检验K值,看Bartlett 球形检验是否显着,如果显着,说明比较适合做因子分析。一般来说,萃取出的因子累积方差贡献率在90%以上,就具有了比较好的解释力,变量原始矩阵与重构矩阵之间的残差大于0.05的个数比例小于15%,拟合效果就比较好。变量压缩完成之后,观察数据的大体数量级,看是否在同一水平。在多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级。当各指标间的水平相差