多种高速聚类算法的研究与C编程.pptVIP

下载本文档

6
0
约3.52千字
约 31页
2017-08-28 发布于河南
举报
版权申诉

多种高速聚类算法的研究与C编程.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

多种高速聚类算法的研究与C编程学生：胡侠指导教师：周一民 Email: huxia001@ 组织结构项目背景、意义系统的实现实验与分析总结与展望项目的背景、意义 (Ⅰ) 背景聚类分析源于多个领域，包括数据挖掘，统计学，生物学，以及机器学习等数据挖掘（Data Mining）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程聚类是将数据点集合分成若干类或簇(cluster)，使得每个簇中的数据点之间最大程度地相似，而不同簇中的数据点最大程度地不同；从而发现数据集中有效的、新颖的、有用的数据分布；其与分类不同项目的背景、意义(Ⅱ) 意义聚类分析广泛的应用于许多领域中，包括模式识别，数据分析，图像处理，以及市场研究要想比较透彻的了解各种聚类算法及其特性，用程序将其实现是非常必要的，而相关的源程序由于种种原因，很难找到国内外研究现状与发展动态(Ⅰ) 研究现状聚类技术主要分为如下几类：划分方法，层次方法，基于密度的方法，基于网格的方法，和基于模型的方法在数据挖掘领域，研究工作已经集中在为大型数据库的有效和实际的聚类分析寻找适当的办法在统计学上，有一些经典的算法的聚类工具已经被加入到许多统计分析软件包或系统中；在机器学习领域，聚类是无指导学习的一个例子国内外研究现状与发展动态(Ⅱ) 发展动态活跃的研究主题集中在聚类方法的可伸缩性，方法对聚类复杂形状和类型的数据的有效性，高维聚类分析技术，以及针对大型数据库中混合数值和分类数据的聚类方法等方面聚类是一个富有挑战性的研究领域，它的潜在应用提出了各自特殊的要求组织结构项目背景、意义系统的实现实验与分析总结与展望采取的技术方案关键技术难点工具方面对linux下的C编程并不熟悉，导致效率比较低下，对工具的应用需要进一步的练习概念方面对聚类知识并不熟悉，对很多概念缺乏了解算法方面多数算法没有比较详细的步骤，只有一个大概的描述，需要仔细的分析和理解，在这些问题上需要周全的考虑效率评价算法系统实现基础分析 (Ⅰ) 数据矩阵数据矩阵是一种“对象-属性”矩阵，即它是用描述对象的k个属性来表现n个对象。这种数据结构类似于关系表的形式，可以用n * k的矩阵来表示：其中，每一行为一个向量，代表一个数据对象我们均采用len_m * (len_n + 1) 来存储数据系统实现基础分析(Ⅱ) 聚类的距离定义 Euclidean距离：采用传统的距离的概念，使用比较广泛一般的改进思想: 对于大数据集，一般的会采用抽取一个样本空间的思想来解决运算时间过长的问题；这样会降低聚类的准确性，因此，这实际上是在准确性和效率之间进行折衷 PAM算法(Ⅰ) PAM PAM算法(Ⅱ) In Steps 2 and 3, there are altogether k(n – k) pairs of Om,Op. For each pair, computing TCmp requires the examination of (n – k) nonselected objects. Thus, Steps 2 and 3 combined is of O(k(n-k)2) 从数据集中任意选择一个数据进行测试，循环直至停止。这样的算法复杂度为k * x * (n – k) (其中1 x k) 从数据集中选择数据set(certain)进行测试，在其中算最小值。算法复杂度为 k * certain * (n – k).(在第一种方法的作者的另一篇论文中kmean算法就是采用的这种方法) dbscan算法(Ⅰ) dbscan dbscan算法(Ⅱ) 参数给定半径Eps、阀值MinPts 数据结构 dbscan算法(Ⅲ) dbscan算法细节在对点进行聚类的时候，会出现几种可能的情况，如果设其邻域内的点为p：情况1，p已经被聚类过了，则不对p进行任何处理；情况2，p未被聚类过且是核心点，则将其作为新种子压栈，以待以后对其进行递归的聚类处理；情况3，p未被聚类过且不是核心点，则将类号填入p的id变量中，说明p已经被聚类为id了在对所有的点扫描完之后，这些点的聚类也就做好了，最后将堆栈递归的进行聚类，对非中心点进行处理，聚类过程到此结束，就可以退出程序系统集成(Ⅰ) 系统集成(Ⅱ) 系统集成(Ⅲ) 组织结构项目背景、意义系统的实现实验与分析总结与展望实验准备平均准确率（averaged accuracy）表