网站大量收购闲置独家精品文档,联系QQ:2885784924

《大数据处理与智能决策 》课件_6-聚类算法概论.ppt

《大数据处理与智能决策 》课件_6-聚类算法概论.ppt

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共38页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

*数据标准化因此样本集的标准化过程(standardization)用公式描述就是:?标准化后的值=?(标准化前的值?-分量的均值)/分量的标准差经过简单的推导就可以得到两个n维向量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的标准化欧氏距离的公式:?如果将方差的倒数看成是一个权重,这个公式可以看成是一种加权欧氏距离。*数据标准化以上方法称为z-score法,是基于原始数据的均值(mean)和标准差(standarddeviation)进行数据的标准化。将A的原始值x使用z-score标准化到x’。z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。除此之外,还有min-max法,如下:*数据标准化比例法,如下:(2.3,5.6,4,4.1)*聚类准则:根据相似性测度确定的,衡量模式之间是否相似的标准。即把不同模式聚为一类还是归为不同类的准则。确定聚类准则的两种方式:1)阈值准则:根据规定的距离阈值进行分类的准则。2)函数准则:利用聚类准则函数进行分类的准则。聚类准则函数:在聚类分析中,表示模式类间相似或差异性的函数。它应是模式样本集{X}和模式类别的函数。可使聚类分析转化为寻找准则函数极值的最优化问题。一种常用的指标是误差平方之和。聚类准则*聚类准则函数:式中:c为聚类类别的数目,为属于集的样本的均值向量,为中样本数目。J代表了分属于c个聚类类别的全部模式样本与其相应类别模式均值之间的误差平方和。适用范围:适用于各类样本密集且数目相差不多,而不同类间的样本又明显分开的情况。*例1:类内误差平方和很小,类间距离很远。可得到最好的结果。类长轴两端距离中心很远,J值较大,结果不易令人满意。*错误分类例2:另一种情况有时可能把样本数目多的一类分拆为二,造成错误聚类。原因:这样分开,J值会更小。正确分类谢谢!考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。*什么是聚类? “物以类聚”,将数据分组成为多个类。在同一个类内对象之间具有较高的度,不同类之间的对象差别较大。例:一个照片中有30位学生,每个学生10张不同照片,将这300张照片打乱,聚类就是在不告诉机器任何学生的信息,仅凭对300张照片的学习,然后把它分成10类;聚类的应用场景经常光顾商店的客人,谁买什么东西,买多少?按会员卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类这样商店可以….识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购)刻画不同的客户群的特征(用变量来刻画,就像刻画猫和狗的特征一样,即用户画像)聚类的应用场景原因:为什么我们要这样分类?因为每一个类别里面的人消费方式、消费习惯都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的相应率。如:淘宝、京东等均会根据用户画像为用户推荐用户可能感兴趣的商品;甚至所谓的大数据杀熟理论也是基于此。聚类的应用场景目的:挖掘有价值的客户,并制定相应的促销策略:如,对经常购买酸奶的客户对累计消费达到12个月的老客户针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低!针对不同消费层级或消费偏好的客户推送相应的产品及服务!聚类的应用领域经济领域:帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。谁喜欢打国际长途,在什么时间,打到那里?对住宅区进行聚类,确定自动提款机ATM的安放位置股票市场板块分析,找出最具活力的板块龙头股企业信用等级分类……生物学领域推导植物和动物的分类;对基因分类,获得对种群的认识数据挖掘领域作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究聚类的研究领域数据挖掘聚类可伸缩性、各种各种复杂形状类的识别,高维聚类等统计学主要集中在基于距离的聚类分析,发现球状类机器学习无监督学习(聚类不依赖预先定义的类,不等同于分类)空间数据技术生物学市场营销学聚类的应用场景以上分析,如果没有大量的数据去支持,聚类分析就什么都挖不出来。大量的数据

您可能关注的文档

文档评论(0)

kd8w + 关注
实名认证
内容提供者

kd8w

1亿VIP精品文档

相关文档