- 1、本文档共38页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
*数据标准化因此样本集的标准化过程(standardization)用公式描述就是:?标准化后的值=?(标准化前的值?-分量的均值)/分量的标准差经过简单的推导就可以得到两个n维向量a(x11,x12,…,x1n)与b(x21,x22,…,x2n)间的标准化欧氏距离的公式:?如果将方差的倒数看成是一个权重,这个公式可以看成是一种加权欧氏距离。*数据标准化以上方法称为z-score法,是基于原始数据的均值(mean)和标准差(standarddeviation)进行数据的标准化。将A的原始值x使用z-score标准化到x’。z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。除此之外,还有min-max法,如下:*数据标准化比例法,如下:(2.3,5.6,4,4.1)*聚类准则:根据相似性测度确定的,衡量模式之间是否相似的标准。即把不同模式聚为一类还是归为不同类的准则。确定聚类准则的两种方式:1)阈值准则:根据规定的距离阈值进行分类的准则。2)函数准则:利用聚类准则函数进行分类的准则。聚类准则函数:在聚类分析中,表示模式类间相似或差异性的函数。它应是模式样本集{X}和模式类别的函数。可使聚类分析转化为寻找准则函数极值的最优化问题。一种常用的指标是误差平方之和。聚类准则*聚类准则函数:式中:c为聚类类别的数目,为属于集的样本的均值向量,为中样本数目。J代表了分属于c个聚类类别的全部模式样本与其相应类别模式均值之间的误差平方和。适用范围:适用于各类样本密集且数目相差不多,而不同类间的样本又明显分开的情况。*例1:类内误差平方和很小,类间距离很远。可得到最好的结果。类长轴两端距离中心很远,J值较大,结果不易令人满意。*错误分类例2:另一种情况有时可能把样本数目多的一类分拆为二,造成错误聚类。原因:这样分开,J值会更小。正确分类谢谢!考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。*什么是聚类? “物以类聚”,将数据分组成为多个类。在同一个类内对象之间具有较高的度,不同类之间的对象差别较大。例:一个照片中有30位学生,每个学生10张不同照片,将这300张照片打乱,聚类就是在不告诉机器任何学生的信息,仅凭对300张照片的学习,然后把它分成10类;聚类的应用场景经常光顾商店的客人,谁买什么东西,买多少?按会员卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类这样商店可以….识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购)刻画不同的客户群的特征(用变量来刻画,就像刻画猫和狗的特征一样,即用户画像)聚类的应用场景原因:为什么我们要这样分类?因为每一个类别里面的人消费方式、消费习惯都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的相应率。如:淘宝、京东等均会根据用户画像为用户推荐用户可能感兴趣的商品;甚至所谓的大数据杀熟理论也是基于此。聚类的应用场景目的:挖掘有价值的客户,并制定相应的促销策略:如,对经常购买酸奶的客户对累计消费达到12个月的老客户针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低!针对不同消费层级或消费偏好的客户推送相应的产品及服务!聚类的应用领域经济领域:帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。谁喜欢打国际长途,在什么时间,打到那里?对住宅区进行聚类,确定自动提款机ATM的安放位置股票市场板块分析,找出最具活力的板块龙头股企业信用等级分类……生物学领域推导植物和动物的分类;对基因分类,获得对种群的认识数据挖掘领域作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究聚类的研究领域数据挖掘聚类可伸缩性、各种各种复杂形状类的识别,高维聚类等统计学主要集中在基于距离的聚类分析,发现球状类机器学习无监督学习(聚类不依赖预先定义的类,不等同于分类)空间数据技术生物学市场营销学聚类的应用场景以上分析,如果没有大量的数据去支持,聚类分析就什么都挖不出来。大量的数据
您可能关注的文档
- 《工业机器人应用技术》课件_5.2 运动姿态.ppt
- 《工业机器人应用技术》课件_6.2 机器人夹具的动态效果.ppt
- 《工业机器人应用技术》课件_1.1 机器人的分类与工业机器人应用.ppt
- 《工业机器人应用技术》课件_5.1 轨迹路径.ppt
- 《固体物理基础》课件_第6章.ppt
- 《管理信息系统》课件_第一章.pptx
- 《工业机器人应用技术》课件_8.1 工业机器人使用安全环境与安全规程.ppt
- 《跟着名师学电脑Excel应用入门实例》课件_第2章.pptx
- 《工业机器人应用技术》课件_5.3 辅助工具及使用.ppt
- 《程序设计与实例分析》课件_第二讲.pptx
- 中国国家标准 GB/T 45154-2024老龄化社会 年龄包容性劳动力通用要求与指南.pdf
- 《GB/T 45154-2024老龄化社会 年龄包容性劳动力通用要求与指南》.pdf
- 中国国家标准 GB/T 7019-2024纤维水泥制品试验方法.pdf
- GB/T 7019-2024纤维水泥制品试验方法.pdf
- GB/T 45150-2024老龄化社会 认知症包容性社群框架.pdf
- 中国国家标准 GB/T 25320.4-2024电力系统管理及其信息交换 数据和通信安全 第4部分:包含MMS的协议集及其附件.pdf
- 中国国家标准 GB/T 45150-2024老龄化社会 认知症包容性社群框架.pdf
- 《GB/T 25320.4-2024电力系统管理及其信息交换 数据和通信安全 第4部分:包含MMS的协议集及其附件》.pdf
- 《GB/Z 44938.1-2024机械电气安全 第1部分:用于保护人员安全的传感器》.pdf
- 中国国家标准 GB/T 21551.3-2024家用和类似用途电器的抗菌、除菌、净化功能 第3部分:空气净化器的特殊要求.pdf
最近下载
- 2024-2030年中国电热水壶市场运行动态分析与营销策略研究报告.docx
- 2025《中国的大学介绍》讲座课件.pptx
- 2024-2030年中国电热水壶市场运行动态分析与营销策略研究报告.docx
- 2023湖南单招语文练习题.docx VIP
- 四库全书基本概念系列文库:襄阳县志.pdf VIP
- ISO15189质量管理体系范本文件-医院检验科程序文件 收藏版.doc
- JJF(闽) 1125-2022 土工布测厚仪校准规范.docx
- 高中化学思维导图_海水资源的开发利用.pdf VIP
- 河南省2024年中考数学试卷(含答案).docx VIP
- 人教版数学四年级下册第2单元综合检测卷(含答案).doc VIP
文档评论(0)