改进k—means聚类算法在客户细分中应用研究.docVIP

下载本文档

5
0
约3.41千字
约 7页
2018-06-21 发布于福建
举报
版权申诉

改进k—means聚类算法在客户细分中应用研究.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

改进k—means聚类算法在客户细分中应用研究

改进k—means聚类算法在客户细分中应用研究　　摘要：聚类分析是数据挖掘的一种重要方法，将它应用在客户细分中，可以识别出不同的客户群，从而针对不同的客户群制定相应的营销政策，使企业效益最大化。针对聚类分析中k-means算法的不足，运用改进的聚类算法对旅游业客户进行细分，从而使企业能够更合理地细分、规划客户群组，针对不同需求的客户群体进行区别对待，得到了较好的效果，验证了改进算法的可行性和高效性。　　关键词：聚类分析；客户细分；数据挖掘；改进的k-means算法；客户群　　中图分类号：F713.50 文献标识码：A 文章编号：1007-2101（2014）01-0118-04 　　客户关系管理中的一个重要环节就是客户细分，它也是客户关系管理中的核心概念之一。客户细分是将一个大的客户群或者消费者群体划分成多个细分群体，这些群体中同属于一个细分群体的客户或者消费者的彼此特性相似，而隶属于不同细分群体的客户或者消费者之间是不同的。简而言之，客户细分是根据客户的属性、行为、需求、偏好以及价值等因素划分的客户集合。　　在激烈的市场竞争中，客户细分是众多企业识别客户类别、把握客户特征的重要方法。通过客户细分，企业可以更好地识别客户群体，从而达到区别对待有不同需求的客户，采取差异化的营销策略，达到最优化配置客户资源的目的。因此，当今企业如果想在激烈的市场竞争中脱颖而出就应该了解如何对客户群体进行客户细分，从而挖掘出具有消费潜力的客户，并针对这些客户进行合理的资源分配，对不同价值的客户制定出不同的营销策略。　　一、聚类分析算法　　目前，有很多种聚类算法可以选择，而究竟选择哪种算法主要取决于数据的类型、聚类的目的及其应用。现今，主要的聚类算法可以划分为以下几类：基于划分的方法、基于网格的方法、基于层次的方法和基于密度的方法等。基于划分的聚类方法为给定数据集合指定合理的划分，每个对象被指定给唯一的簇。簇的个数k是需要用户指定的输入参数。一个好的聚类算法的划分准则是：不同类中的对象之间尽可能的远离或者不同，而同一类中的对象之间尽可能的相近或者相关。　　k-means算法是其中最常用的划分方法，它以k为参数，再把n个对象分解成为k个簇，以使簇内具有较高的相似度，簇间具有较低的相似度。而相似度的计算是根据一个簇中对象的平均值来进行的。它的算法步骤为：首先在所有的对象中随机的选取k个对象用作初始的聚类中心；然后根据剩余对象与各个中心点之间的距离，将它们分配到距离最近的簇中；再重新计算一遍新得到的每个簇的均值并将它作为新的聚类中心。重复上述步骤直到准则函数收敛为止。　　k-means算法的主要优点是算法简洁、快速。它是解决聚类问题的经典算法之一。它在结果簇是密集的，且簇与簇之间区别明显时效果最好。同时对处理较大的数据集时，该算法也是相对高效和可伸缩的。它的时间复杂度是O（nkt），其中n是所有对象的数目，k是簇的数目，t是迭代的次数。但k-means算法同时也具有一定的局限性，主要体现在以下几个方面：　　1. 从样本点的集合中随机选取k个中心，这种选择具有盲目性和随意性，它在很大程度上决定了算法的有效性。这个算法的聚类结果对初值的依赖性很强，初始值一旦选择的不好，可能无法得到有效的聚类结果。所以，这也成为k-means算法的一个核心问题，因此对初始中心的选择进行改进既有意义也有必要。　　2. 聚类中心的调整，这是涉及聚类准确性的关键问题。k-means算法的处理方法是对每一个已有的分类，聚类中心为该类中所含数据点的几何平均值。而平方误差准则函数在各个簇之间区别明显且数据分布稠密时运用起来比较有效；但是如果各簇的形状和大小差别很大，为使函数收敛则可能会将大的聚类簇分割，从而导致聚类结果的不准确。　　二、改进的k-means算法　　三、实例分析　　本次试验是针对旅游业客户对服务重要性的评价打分进行客户细分，从而将客户细分成几类，针对不同类客户采取不同的决策，最终使企业的效益最大化。　　1. 确定数据挖掘的目标。数据挖掘不能盲目地进行，必须非常明确的定义出业务的问题。因此认清数据挖掘的目的是数据挖掘很重要的一步。本次试验是对旅游业的客户进行分类。　　2. 收集和预处理数据。在数据挖掘中首要步骤就是收集数据。数据可以从多种渠道中获得，可以从数据仓库中，也可以从现有事务处理系统中得到。获得数据后，从中选择出与业务对象相关的，并且适用于数据挖掘应用的数据。而在收集阶段得到的数据可能存在一系列的问题，表现在数据有缺失或存在自身的不一致性等。因此我们要先做数据的预处理，一般包括消除重复记录、推导计算缺值数据、完成数据类型的转换、消除噪声等。　　本次试验的数据来源于数据仓库中抽取的旅游业的客户服务数据，既