李倩《商务数据分析》第七章.pptxVIP

下载本文档

0
0
约3.3千字
约 19页
2023-03-23 发布于浙江
举报
版权申诉

李倩《商务数据分析》第七章.pptx

1、本文档共19页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第二部分商务数据分析常用方法第三章数据获取与数据理解第四章数据预处理第五章计量模型第六章数据挖掘分类预测模型第七章数据挖掘聚类与关联规则模型第八章社会网络分析模型第九章复杂数据分析方法第十章数据可视化第七章数据挖掘聚类与关联规则模型第一节聚类1. 聚类概念按照某个特定标准(如距离远近、相似程度)把一个数据集分割成不同的类或簇，分割原则是属于同一个类或簇内的数据对象尽可能相似，同时不在同一个类中的数据对象尽可能不同。聚类的结果本质上是将已有的大量数据浓缩成若干类，并用集体特征替代类簇内样本特征。无监督学习。在进行聚类的时候，事先并不知道每个类别的特点、每个样本的类别，也不需要使用训练数据进行学习，只需要计算出各个训练样本之间的相似度或距离，然后按照相似程度或距离远近，将数据集分成若干类。同时，在聚类完成之后才能知道每个类到底具备什么样的特征。依据相似性进行分析，距离计算是最为常见的相似度度量方法。 2. K-Means聚类方法操作简便，聚类速度快，适合较为简单的聚类场景，但是同样受制于均值的局限性很容易受离群点的影响，而且需要提前设定K值的大小，通常在多次参数设定后，结合研究问题，确定最好的聚类结果对应的K。首先根据聚类类别数量要求，随机指定k个点作为各类别的中心点（称之为质心），初始化质心的属性值可以完全随机，也可以在观察数据特征后人为规定属性值；第二步，计算每个样本数据点到质心的距离，数据点距离哪个质心点最近就划分到哪一类中；第三步，计算更新后的类的质心点；重复第二、三步，直到每一类质心在迭代后变化不大为止。最常见，也是最简单的一种聚类算法，事先指定聚类数量k，按照相似程度将全部样本聚为k类，并用每一类中所有样本某项属性的均值来代表该类的属性值。 3.基于密度的聚类方法(DBSCAN)DBSCAN(Density-Based Spatial Clustering of Applications with Noise)基于密度进行聚类，并考虑噪声。核心思想是，根据密度判定密切联系的样本属于一类，不属于任何一类的样本称为噪声。密度具体衡量的是在设定的取值范围内样本的数量，由此算法中有两个重要参数衡量密度，r代表取值范围，MinPts代表最少样本数量。根据数据密度，将样本点分为以下三类：核心点：以此点为中心，在半径r内含有超过MinPts数目的点；边界点：在半径r内点的数量小于MinPts，但是与某个核心点的距离小于指定半径；噪音点：样本中既不是核心点也不是边界点的点，即与其他数据有显著差异的样本。 3.基于密度的聚类方法(DBSCAN)?算法的步骤如下：首先，以半径r，最少样本数量MinPts两个参数判断样本集合中的核心点。然后，随机找到一个核心点，找到所有与其密度可达的核心点，这些点构成一类。而对于每一个边界点，将其归为半径r内最近的核心点所属的类。将已有类别的点从集合中删除，在集合中随机找到下一个核心点继续前面的步骤，直到给所有可能的点赋予了类别。最后，不属于任何一类的点称为噪声点。形成的聚类形状可以是任意形状，并且能够识别出噪声点，极大地减小了噪声点（离群点）对聚类结果的影响。不足之处，主要表现在：（1）对于特征数量较多的高维样本数据不适用;(2)如果样本集的密度不均匀、聚类间距差相差很大时，聚类质量较差。 4.层次凝聚聚类（HAC）层次聚类基于计算不同样本点的相似度创建一棵有层次的聚类树实现聚类每一个原始样本点是这棵树的最低层节点，代表每个样本点都是一类，而树的顶层是一个节点，代表所有样本点是一个类别，树的中间层节点代表这个节点下面的样本被聚合成了一类。层级凝聚聚类(HAC)：自下而上的一种聚类算法核心思想是相近的样本（样本集）可以合并成一类。自下而上，HAC首先将每个数据点视为一个单一的类，然后计算所有类之间的距离，将两个具有最小距离的类合并成为一个类。然后继续计算目前所有类之间的距离，将最近的两个类进行合并，直到所有的类聚合成为一个类为止，从而完成了聚类树。层次聚类法的关键是计算类间距离 5.聚类效果评价指标? 5.聚类效果评价指标? 第二节关联规则? 2. 关联规则常用评价标准? 3.关联规则挖掘基础：频繁项集与强规则高于最小支持度的项集是“频繁的”，数据集中频繁出现的项集构成的集合称为频繁项集。在频繁集中构建的规则才有代表性。频繁集构成的规则中，置信度高于给定阈值的所有规则的称为强规则。首先，产生频繁项集：找出所有支持度大于最小支持度的项集，即为频繁项集。其次，产生强关联规则：从上一步发现的频繁项集中生成满足最小置信度的强关联规则。重点在于完成第一个步骤 4. 关联规则挖掘算法Apriori中心思想在于其生成频繁项集的方式，也就是从k-项集产生(k+1)-项集的