- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多种高速聚类算法的研究与C编程 学生: 胡侠 指导教师:周一民 Email: huxia001@ 组织结构 项目背景、意义 系统的实现 实验与分析 总结与展望 项目的背景、意义 (Ⅰ) 背景 聚类分析源于多个领域,包括数据挖掘,统计学,生物学,以及机器学习等 数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程 聚类是将数据点集合分成若干类或簇(cluster),使得每个簇中的数据点之间最大程度地相似,而不同簇中的数据点最大程度地不同;从而发现数据集中有效的、新颖的、有用的数据分布;其与分类不同 项目的背景、意义(Ⅱ) 意义 聚类分析广泛的应用于许多领域中,包括模式识别,数据分析,图像处理,以及市场研究 要想比较透彻的了解各种聚类算法及其特性,用程序将其实现是非常必要的,而相关的源程序由于种种原因,很难找到 国内外研究现状与发展动态(Ⅰ) 研究现状 聚类技术主要分为如下几类:划分方法,层次方法,基于密度的方法,基于网格的方法,和基于模型的方法 在数据挖掘领域,研究工作已经集中在为大型数据库的有效和实际的聚类分析寻找适当的办法 在统计学上,有一些经典的算法的聚类工具已经被加入到许多统计分析软件包或系统中;在机器学习领域,聚类是无指导学习的一个例子 国内外研究现状与发展动态(Ⅱ) 发展动态 活跃的研究主题集中在聚类方法的可伸缩性,方法对聚类复杂形状和类型的数据的有效性,高维聚类分析技术,以及针对大型数据库中混合数值和分类数据的聚类方法等方面 聚类是一个富有挑战性的研究领域,它的潜在应用提出了各自特殊的要求 组织结构 项目背景、意义 系统的实现 实验与分析 总结与展望 采取的技术方案 关键技术难点 工具方面 对linux下的C编程并不熟悉,导致效率比较低下,对工具的应用需要进一步的练习 概念方面 对聚类知识并不熟悉,对很多概念缺乏了解 算法方面 多数算法没有比较详细的步骤,只有一个大概的描述,需要仔细的分析和理解,在这些问题上需要周全的考虑 效率评价算法 系统实现基础分析 (Ⅰ) 数据矩阵 数据矩阵是一种“对象-属性”矩阵,即它是用描述对象的k个属性来表现n个对象。这种数据结构类似于关系表的形式,可以用n * k的矩阵来表示: 其中,每一行为一个向量,代表一个数据对象 我们均采用len_m * (len_n + 1) 来存储数据 系统实现基础分析(Ⅱ) 聚类的距离定义 Euclidean距离:采用传统的距离的概念,使用比较广泛 一般的改进思想: 对于大数据集,一般的会采用抽取一个样本空间的思想来解决运算时间过长的问题;这样会降低聚类的准确性,因此,这实际上是在准确性和效率之间进行折衷 PAM算法(Ⅰ) PAM PAM算法(Ⅱ) In Steps 2 and 3, there are altogether k(n – k) pairs of Om,Op. For each pair, computing TCmp requires the examination of (n – k) nonselected objects. Thus, Steps 2 and 3 combined is of O(k(n-k)2) 从数据集中任意选择一个数据进行测试,循环直至停止。这样的算法复杂度为k * x * (n – k) (其中1 x k) 从数据集中选择数据set(certain)进行测试,在其中算最小值。算法复杂度为 k * certain * (n – k).(在第一种方法的作者的另一篇论文中kmean算法就是采用的这种方法) dbscan算法(Ⅰ) dbscan dbscan算法(Ⅱ) 参数 给定半径Eps、阀值MinPts 数据结构 dbscan算法(Ⅲ) dbscan算法细节 在对点进行聚类的时候,会出现几种可能的情况,如果设其邻域内的点为p: 情况1,p已经被聚类过了,则不对p进行任何处理; 情况2,p未被聚类过且是核心点,则将其作为新种子压栈,以待以后对其进 行递归的聚类处理; 情况3,p未被聚类过且不是核心点,则将类号填入p的id变量中,说明p已经被 聚类为id了 在对所有的点扫描完之后,这些点的聚类也就做好了,最后将堆栈递归的进行聚类,对非中心点进行处理,聚类过程到此结束,就可以退出程序 系统集成(Ⅰ) 系统集成(Ⅱ) 系统集成(Ⅲ) 组织结构 项目背景、意义 系统的实现 实验与分析 总结与展望 实验准备 平均准确率(averaged accuracy) 表
您可能关注的文档
最近下载
- 2025年闽教版(2024)小学英语四年级上册(全册)教学设计(附目录P123).docx
- 冠心病的介绍与治疗PPT.pptx VIP
- 2025云南昆明巫家坝建设发展有限责任公司及下属公司第三季度招聘23人笔试参考题库附答案解析.docx VIP
- 2.2.3 气候——特征和影响因素(课件)八年级地理上册(人教版).pptx VIP
- 八年级地理上册湘教版第二章第二节中国的气候课件.pptx VIP
- 2024建筑施工升降机安全生产隐患识别图集.docx VIP
- 2022年云南大学滇池学院计算机科学与技术专业《计算机网络》科目期末试卷A(有答案).docx VIP
- 有限空间作业安全操作规程范例.docx VIP
- 西门子西门子技术go-top.pdf VIP
- 2023年云南大学滇池学院网络工程专业《计算机组成原理》科目期末试卷B(有答案).docx VIP
文档评论(0)