Python高级数据建模分析.pdfVIP

  1. 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
  2. 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
  3. 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
07 高级数据建模分析 Python数据处理,分析,可视化与数据化运营 本章学习目地 了解常用地数据挖掘与机器学习算法地概念与应用场景 掌握运用常见机器学习算法解决实际项目问题地能力 掌握不同算法评估地主要方法 熟悉常见地用于机器学习地数据预处理工作与技巧 了解如何将机器学习与日常应用结合并推动结果落地 掌握如何通过可视化展示机器学习结果地方法 7.1使用KMeans聚类算法挖掘用户潜在特征 3 算法引言 聚类地概念 q聚类是数据挖掘与计算地基本任务,它将大量数据集中具有相似特征地数 据点或样本划分为一个类别。 q聚类分析地基本思想是物以类聚,人以群分,因此大量地数据集 中必然存 在相似地数据样本,基于这个假设就可以将数据 区分 出来,并发现不 同类地 特征。 7.1使用KMeans聚类算法挖掘用户潜在特征 4 算法引言 聚类地应用场景 q聚类常用于数据探索或挖掘前期,在没有做先验经验地背景下做地探索性分 析 q也适用于样本量较大情况下地数据预处理工作。 7.1使用KMeans聚类算法挖掘用户潜在特征 5 算法引言 聚类地常用算法 q基于划分,层次,密度,网格,统计学,模型等类型地算法 q典型算法包括K均值 (经典地聚类算法 ,DBSCAN,两步聚类,BIRCH,谱聚 类等 7.1使用KMeans聚类算法挖掘用户潜在特征 6 案例背景 业务需求 业务部门拿了一些关于用户地数据找到数据部门,苦于没有分析入手点,希望 数据部门通过分析给业务部门一些启示或者提供后续分析或业务思考地建议。 7.1使用KMeans聚类算法挖掘用户潜在特征 7 案例背景 需求解读 q (1)探索性数据分析地任务,且业务方没有任何先验经验给到数据部门。 q (2)这次地分析结果,用于做业务地知识启发或后续分析地深入应用。 q (3)业务希望得到地是它们自己无法认知到,且自身无法实现地数据知识。 7.1使用KMeans聚类算法挖掘用户潜在特征 8 数据源概述 从CRM数据获取,数据共1000条记录,5列字段,没有缺失值,具体如下: q (1 USER_ID:用户ID列,整数型。该列为用户数据分析师唯一ID标志。 q (2 AVG_ORDERS:平均用户订单数量,浮点型。 q (3 AVG_MONEY:平均订单价值,浮点型。 q (4 IS_ACTIVE:是否活跃,以0-1来表示结果,数值型。 q (5 SEX:性别,以0-1来标识性别男与女,数值型。 7.1使用KMeans聚类算法挖掘用户潜在特征 9 数据源概述 数据源关键信息点 q (1)分割ID列,ID列不能直接参与特征计算。 q (2) IS_ACTIVE与SEX代表是一个分类 变量,但由于使用0与1来标记数据,因此 可直接参与计算。如果使用0-1-2甚至更多分类数值索引,则需要单独做处理。 q (3)AVG_ORDERS与AVG_MONEY具有明显地量纲差异,如果直接做相似度计 算,那么结果会直接受到量纲地影响,因此需要做量纲归一化或标准化处理。 7.1使用KMeans聚类算法挖掘用户潜在特征 10 案例过程 导入库 import pandas as pd # panda库 from sklearn.preprocessing import

文档评论(0)

王小磊 + 关注
实名认证
文档贡献者

临床内科执业资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年03月29日上传了临床内科执业资格证

1亿VIP精品文档

相关文档