Python数据分析与应用第2版第7章竞赛网站用户分群.pptVIP

下载本文档

255
0
约6.88千字
约 35页
2022-10-20 发布于甘肃
举报
版权申诉

Python数据分析与应用第2版第7章竞赛网站用户分群.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

scikit-learn库的KMeans类实现了K-Means聚类算法，KMeans类的基本使用格式如下。了解K-Means聚类算法 4. 主要参数介绍 class sklearn.cluster.KMeans(n_clusters=8, *, init=k-means++, n_init=10, max_iter=300, tol=0.0001, precompute_distances=deprecated, verbose=0, random_state=None, copy_x=True, n_jobs=deprecated, algorithm=auto) KMeans类的常用参数及其说明如表所示。了解K-Means聚类算法参数名称参数说明 n_clusters 接收int。表示聚类数。默认为8 init 接收“k-means++”“random”和ndarray。表示产生初始质心方法。默认为k-means++ n_init 接收int。表示用不同的聚类中心初始化值运行算法的次数。默认为10 max_iter 接收int。表示最大迭代次数。默认为300 tol 接收float。表示容忍的最小误差。当误差小于tol时将会退出迭代。默认为0.0001 verbose 接收int。表示是否输出详细信息。默认为0 random_state 接收int、numpy.RandomState。表示用于初始化质心的生成器。若值为一个整数，则确定一个种子。默认为None copy_x 接收bool。表示是否提前计算距离的情况。默认为True algorithm 接收“auto”“full”“elkan”。表示优化算法的选择。默认为auto 对构建特征的数据进行标准化，采用K-Means聚类算法对数据进行用户分群。根据网站的分类和聚类中心数值，使用自定义函数绘制雷达图，如图所示。使用K-Means聚类算法进行用户分群续上图可知各群体的特点如下。用户群1在各个特征上的取值都很小，关注点较高的是优秀作品，这群体的用户可能是观望群体。用户群2在新闻动态上有最大取值，对竞赛的关注量也不低，这群体的用户可能是参加竞赛学生的辅导老师。用户群3在项目与合作和教学资源上有最大取值，这类用户对合作和资源的关注度极高，可能为有合作意向的教师或企业群体。用户群4在优秀作品上有最大取值，对项目与合作和教学资源的关注量也不低，这类用户可能为正处于学习阶段的数据挖掘学习者。用户群5在竞赛上有最大取值，对其他方面的关注度极低，这类用户可能为网站竞赛参赛者群体。使用K-Means聚类算法进行用户分群在使用K-Means聚类算法分出的群体中，根据不同群体用户对不同类别网页的关注，大致认为用户群3、4、5的用户是竞赛网站的主要发展对象。对用户群3的分析如下。用户群3是重要用户，该用户群重点关注了网站的项目、资源等方面，强烈凸显该用户群的合作意向。公司可以主动的与这一群体的用户进行沟通，并且向用户展示公司的优点，以达到合作的目的。模型应用对用户群4、5的分析如下。用户群4是次重要用户，该用户群重点关注了网站的优秀作品，说明用户对公司提供的学习资源有较高的兴趣。公司可以与这一群体的用户保持沟通，及时了解用户需要何种培训服务以及用户目前对数据挖掘知识的掌握情况，根据用户的需求制定更加个性化的培训计划。用户群5是次重要用户，虽然该用户群重点关注了竞赛，但是用户对于其他类型网页的关注极低，说明公司资源网页和竞赛网页的耦合性过低。公司可以适当的在竞赛网页中提供其他类型网页的链接。模型应用根据竞赛网用户访问的原始数据，在数据中构建用户标签以及对网页进行分类。结合实际业务情况构建了聚类特征。最后用K-Means建立聚类分群模型。并对聚类得到的结果分析各个群体的特征。从而结合网站的实际营运情况提出相对应的运营建议。小结 * * 第7章竞赛网站用户行为分析 1 预处理竞赛网站用户访问数据目录了解竞赛网站用户行为分析的背景和方法 2 对竞赛网站用户进行分群 3 随着大数据的兴起，网站的访问量出现了小幅度的下降。在信息化的时代，访问量的减低对于运营商的影响是巨大的。本案例的研究对象是广东泰迪智能科技股份有限公司旗下的泰迪杯竞赛网站。传统的用户分群根据用户的注册资料，性别、年龄、区域等信息对用户进行分群，未能考虑到用户的行为特征和兴趣偏好，分群结果会出现较大偏差难以为差异化服务提供决策的支持。了解竞赛网站背景 1. 分析竞赛网站现状竞赛网站运营商想要对网站用户进行差异化服务以增加访问量，但想在多种多样的互联网用户中精确定位到各种用户存在一定的困难。本案例依据用户的历史浏览记录，研究用户的兴趣偏好，分析需求并发现用户