第6章数据聚类概论.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
虚拟场景 沈经理 小王 说:最近的产品销售额似乎成下降趋势! 答:是啊,但是我们的市场策略并没有变啊! 说:现在的企业啊,是越来越重视客户关系的处理啊!竞争越来越激烈了啊!对了,我们的市场营销策略有区别对待客户吗? 答:没有啊,我们对所有的客户都一视同仁啊! 说:哦,我想我知道我们的问题出在哪里了? 虚拟场景 沈经理 小王 说:小王啊,交给你一个任务!尽管我们的客户很多,但是我希望你能帮我把客户分分类!然后啊,告诉市场部的同事,针对不同的客户,我们要采取不同的客户策略,我要看到接下来我们的销售额是要增长的。 客户 答:经理,好的。但是,我应该怎么样进行客户分类啊?呜呜呜。。。 虚拟场景 小王 说:我应该怎么样进行客户分类啊?呜呜呜。。。 说:你看,我们好多好多的客户啊。。。 虚拟场景 小王 购买次数 购买金额 购买频率 年龄 。。。 5 2000 3/月 28 。。。 8 4000 1/月 35 。。。 虚拟场景 Q1:为什么要分成3类? 如果分成K类呢? Q2:不同的类之间有何特征呢? Q3:这种相似度是什么来衡量呢? 同类之间有着相同的特征,相似度较高! 点与点之间的距离! + + + 所有点的平均值 Means * 数据仓库与数据挖掘 * 6.4 k-means聚类算法 6.4.1 k-means聚类算法的基本概念 6.4.2 SQL server 2005中的k-means应用 * 数据仓库与数据挖掘 * 6.4.1 k-means聚类算法的基本概念 K-Means? K 代表什么? Means代表什么? K-Means聚类算法将各个聚类子集内所有数据样本的均值作为该聚类的代表点. * 数据仓库与数据挖掘 * 6.4.1 k-means聚类算法的基本概念 K-Means不适合处理离散型,对于连续型效果较好. K-Means算法的思想是通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优,从而生成的每个聚类内紧凑,类间独立. 简单的演示 * 数据仓库与数据挖掘 * 6.4.1 k-means聚类算法的基本概念 划分聚类方法对数据集聚类时的三个要点: 要点1:选定某种距离作为数据样本间的相似性度量 欧氏距离 曼哈顿距离 明考斯基距离 * 数据仓库与数据挖掘 * 6.4.1 k-means聚类算法的基本概念 划分聚类方法对数据集进行聚类时包含三个要点: 要点2:选择评价聚类性能的准则函数 K-Means选择误差平方和准则函数来评价聚类性能. * 数据仓库与数据挖掘 * 6.4.1 k-means聚类算法的基本概念 假设数据集合X包含k个聚类子集X1,X2..Xk,各个聚类子集中的样本数量分别为n1,n2,…nk;各个聚类子集的均值代表点(聚类中心)分别为m1,m2…mk,则误差平方和准则函数公式为: E= ∑ (∑ || p-mi || ) 其中mi = ∑ p p?Xi i=1 k p?Xi X1 X2 X3 * 数据仓库与数据挖掘 * 6.4.1 k-means聚类算法的基本概念 划分聚类方法对数据集进行聚类时包含三个要点: 显然,若E值越大,说明误差越大,聚类结果越不好。 因此,我们应该寻求使E最小的聚类结果,即在误差平方和准则下的最优结果。这种聚类通常称为最小方差划分。 * 数据仓库与数据挖掘 * 6.4.1 k-means聚类算法的基本概念 划分聚类方法对数据集进行聚类时包含三个要点: 要点3:选择某个初始分类,之后用迭代的方法得到聚类结果,使得评价聚类的准则函数取得最优值 初始点选择的方法 从数据集中找出看起来比较合适的K个聚类代表点; 将数据集合随机分成k类,然后计算均值作为中心点; 随机选择k个数据样本作为聚类的初始点; 举例说明: * 数据仓库与数据挖掘 * 6.4.1 k-means聚类算法的基本概念 * 数据仓库与数据挖掘 * 6.4.1 k-means聚类算法的基本概念 k-means聚类算法的操作步骤 数据仓库与数据挖掘 数据仓库与数据挖掘 * 数据仓库与数据挖掘 * 第6章 数据聚类 * 数据仓库与数据挖掘 * 6.1 引例 数据分类 分类是在已经知道类标号的训练集上进行分类器工作 数据聚类 聚类是对没有类标号的数据集进行处理. * 数据仓库与数据挖掘 * 6.1 引例 样本序号 描述属性1 描述属性2 x1 1 3 x2 1 6.5 x3 1.5 4 x4 4.5 7.5 x5 4 8.5 x6 5.5 9 x7 4.5 8 聚类分析的数据集没有类别属性 * 数据仓库与数据挖掘 * 6.1 引例 聚类分析的定义 聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程. 聚类之后的每个类别中任意两个数据

文档评论(0)

x5511160 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档