基于Python的聚类方法在电商客户细分中的应用和探索.docxVIP

基于Python的聚类方法在电商客户细分中的应用和探索.docx

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Python的聚类方法在电商客户细分中的应用和探索   摘要:在本篇文章当中主要是以python为编程语言和机器学习库scikit-lear为工具,来对某个电商的库户数据进行分类,从而建立起客户的价值评估模型,文中可以清晰的看到聚类过程,并且使用肘方式和轮廓系数来对建立的模型来进行一个有效的定量分析。   关键词:基于python;聚类方法;电商客户   中图分类号:f713.36文献标识码:a文章编号:1007-9416(2019)03-0230-02   0引言   聚类分析是我们在进行研究数据挖掘当中的一個重要课题,它分别在电子商务,图像处理,文本应用等领域有着较为广泛的作用。而对于电子商务来讲,基于客户价值进行客户细分是当前企业和专家着重的重点关注,因此如何能够准确有效的对客户进行分类成为了当前企业优化营销资源的重要根据。   在本篇文章当中,以一家电子商务女装店为实例,我们可以使用python当中的机器学习库scikit-lear来对电子商务中的客户数据进行聚类的方法进行准确有效的分析,从而可以在一定的程度上帮助企业进行制定个性化的服务。   1对python简单介绍   python这是一门简单易学并且编程功能较为强大的计算机语言,它具有着高效并且准确的数据结构模式,并且可以使用快捷及准确的方法来面向对象进行程序编程。对于python来讲它有着简单的语法以及动态类型,那么再融合它的解释性效果,就可以很好在很多行业领域当中成为编写脚本或者应用程序的最佳计算机语言。随着计算机技术的不断进步,numpy,scipy,matplotilb等许多程序库的逐渐被开发出来,python在行业当中占据着越来越重要的位置,其中有着计算机科学,数学建模,数据挖掘等等。   2k-means聚类算法   对于聚类算法来讲,我们可以从大体上分为几类:划分方式,层次方式,基于密度的方式,基于网格的方式以及基于模型的方式。由此可以知道k-means算法也是分化方式当中的一个类型,它具备着运行效率较快和准确的优点,因此常常在实际当中被进行使用到。   2.1算法的基本概念   k-means的聚类方法是一种较为典型的基于距离聚类算法,其主要的算法概念为,应当先在需要进行分类的数据当中寻找k组数据来当作初始聚类的中心点,接着在对其计算其他样本和这个中心点的大致距离,然后将样本中的中心点归纳到最为接近的聚类中心当中,最后我们重新计算各簇当中所有样本的中心点,当作为一个新的聚类中心,依次循环,一直到出现新的聚类中心和上一次聚类中心点不变或者达到预定的迭代次数时,算法终止。   我们在进行使用k-means算法的时候,应当应用随机点来当中我们的初始中心点,若是初中的中心点选择不当的话,那么就可能在一定的程度上使得我们的簇效果不好甚至出现收敛速度慢的问题出现。   对于k-means算法的初始过程我们进行简单的讲述:   step1:初始化一个为空的集合取名为m,这个m能够用于存储选定的k个中心点。   step2:我们可以从输入当中的样本来进行随机的选择一个中心点,并且把它加入到集合m当中去。   step3:在对于集合m之外的任何一个样本点,可以使用计算方式来进行找到其平方距离最为较小的样本。   step4:我们可以使用加权概率分布算法,来进行测试随机的下一个中心点。   step5:如果直到现在还没有对于k中心点进行选择,那么我们就需要重复第二,第三的步骤依次循环。   step6:对于已经选定的中心点我们需要进行k-means算法处理。   2.2对聚类算法出的结果进行有效准确评估   有效性的标准评价方法,对于聚类方法的有效性,指的是对聚类结果进行评价并且确定评价出的结果是否正确和有效。对于这类指标来讲,它们并不需要有着外部的参考标准,只需要对于数据集本身和聚类结果进行一个评估,就能按照聚类的结果来进行选择最佳聚类数。因为无监督学习不能达到数据及样本的准确数值,那么这个时候就需要我们对聚类效果进行定量解析。那么需要进行使用到的模型内部固有度量来对k-means的聚类结果进行比较。在本篇文章当中肘方式以及轮廓系数评价方式来对聚类质量进行讨论,下面对这两种方法进行简单的介绍。   2.2.1应用肘方式来对簇进行一个数量测试   在肘方式当中主要是使用簇内误差平方和来进行计算的。   2.2.2轮廓系数评价方式   对于轮廓方式这种方法来讲,它主要是采用图形工具来对簇中样本的密集程度进行一个计算,计算出数据中单个样本的轮廓系数,具体步骤如下

您可能关注的文档

文档评论(0)

180****8756 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体盛世风云(深圳)网络科技有限公司
IP属地陕西
统一社会信用代码/组织机构代码
91440300069269024M

1亿VIP精品文档

相关文档