03 数据挖掘概述与聚类算法.pptVIP

  1. 1、本文档共66页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
序数型变量 顾客id 职位 学历 c1 讲师 本科 c2 副教授 研究生 c3 教授 研究生 c4 讲师 本科 c1: 0, 0.5 c2: 0.5, 1 顾客id 学历 学历 c1 1 2 c2 2 3 c3 3 3 c4 1 2 混合类型的变量 一个数据库可能包含多种类型的变量,用以下公式计算对象i,j之间的相异度. 其中,p为对象中的变量个数 如果xif或xjf 缺失(即对象i或对象j没有变量f的值),或者xif = xjf =0,且变量f是不对称的二元变量,则指示项δij(f)=0;否则δij(f)=1 数据挖掘概述 1. 数据挖掘的概念 2. 聚类分析—相似度度量 电子商务专业09级本科课程 聚类 聚类(Clustering)就是将对象集合分成为多个类(Cluster)的过程。 聚类分析是一种重要的人类活动。早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物。 聚类分析无处不在 如果你是一个淘宝店铺的老板… 谁经常光顾店铺,谁买什么东西,买多少? 按消费者的性别、年龄、职业、浏览次数、浏览时间、购物种类、金额等变量对消费者进行聚类 这样淘宝店铺可以…. 识别顾客购买模式(如那些人喜欢,习惯周末时一次性大采购) 需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的响应率。 聚类分析无处不在 如果你是银行的客户经理… 利用储蓄额、刷卡消费金额、刷卡次数、诚信度等变量对客户聚类,找出谁是银行信用卡的黄金客户、谁是容易流失的客户 这样银行可以…… 制定更吸引的服务,留住客户!比如: 一定额度和期限的免息透资服务! 百盛的贵宾打折卡! 在他或她生日的时候送上一个小蛋糕! 聚类分析无处不在 如果你是社会性网站的站长… 把每个用户想象成图中的一个节点,如果用户A对用户B有互动行为(转发,评论等),在用户A和用户B之间建立一条有向边 这样网站可以…… 基于用户的互动信息,构建用户兴趣的挖掘算法。发现网站中具有相同兴趣的用户群体 聚类分析原理—引例 我们看看以下的例子: 有16张牌 如何将他们分为一组一组的牌呢? A K Q J 聚类分析原理—引例 分成四组 每组里花色相同 组与组之间花色相异 A K Q J 花色相同的牌为一副 聚类分析原理—引例 分成四组 符号相同的牌为一组 A K Q J 符号相同的的牌 聚类分析原理—引例 分成两组 颜色相同的牌为一组 A K Q J 颜色相同的配对 聚类分析原理—引例 分成两组 大小相近的牌为一组 大配对和小配对 A K Q J 聚类分析—基本过程 基本过程 选择合理的相似度计算方法 计算个体之间的距离或相似度,构建距离矩阵或相似度矩阵 基于相似性,采取某种聚类方法进行聚类 对不同类别的对象特征进行分析 基本原则 类内对象相似性尽可能大,类间对象相似性尽可能小 聚类分析—基本过程 聚类分析—基本过程 顾客id 订单规模 订单金额 点击量 c1 1 1.5 50 c2 1 6.5 40 c3 1.5 2 25 c4 4.5 7.5 75 c5 4 8.5 20 c6 5.5 9 30 c7 4.5 8 55 距离计算—连续型属性 欧氏距离(Euclidean distance) 曼哈顿距离(Manhattan distance) 明考斯基距离(Minkowski distance) 距离计算—连续型属性 顾客id 订单规模 订单金额 点击量 c1 1 1.5 50 c2 5.5 9 55 c3 5 8.5 40 c4 4.5 7.5 75 c5 4 8.5 20 c6 3.5 9 30 c7 2 6.5 40 距离 10.07 15.02 35.02 55.01 10.02 10.42 选用的度量单位直接影响聚类分析的结果,因此需要实现度量值的标准化,将原来的值转化为无单位的值,给定一个变量f的度量值,可使用以下方法进行标准化: 最大-最小值方法 z-score方法 变量指数法 距离计算—连续型属性标准化 a’=(a-min)/(max-min) 连续型属性标准化—最大-最小值方法 顾客id 订单规模 订单金额 点击量 c1 1 1.5 50 c2 5.5 9 55 c3 5 8.5 40 c4 4.5 7.5 75 c5 4 8.5 20 c6 3.5 9 30 c7 2 6.5 40 Max 5.5 9 75 Min 1 1.5 20 订单规模 订单金额 点击量 0.00 0.00 0.55 1.00 1.00 0.64 0.89 0.93 0.36 0.78

文档评论(0)

151****9996 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档