知识驱动的模糊聚类算法研讨.pdf

下载文档 降价啦

3
0
约5.88万字
约 62页
2018-06-07 发布于贵州
举报
版权申诉
保障服务

知识驱动的模糊聚类算法研讨.pdf

1、本文档共62页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

知识驱动的模糊聚类算法研讨

中文摘要摘要聚类分析算法是一种用来发现数据中存在模式的有效方法，在数据分析中被广泛应用。在本文中，我们主要讨论了一种以领域知识作为辅助手段，并将其有效集成到所研究模式识别问题的方法。首先，本文提出了一种新的知识驱动的聚类算法——贴近度一密切关系传播算法。该算法利用我们所设计的知识判据和由用户给出的样本问的贴近度信息来对由数据所产生的相似度矩阵进行修正，从而将用户的知识引入聚类过程，使算法对于问题的处理变得更加灵活。其次，为了解决上述算法无法得到用户所需聚类数日和大样本数据集合聚类的问题，本文将模糊C均值算法与密切关系传播算法相结合，设计出。一种“大样本数据聚类算法”。该算法分为两个阶段，在第一阶段，我们采用了一种分布式计算策略，先将原始数据集合划分成若干个数据子集，并使用密切关系传播算法分别对每个数据子集样本进行聚类，得到数据的聚类中心。在算法的第二阶段，我们将由第一阶段产生聚类中心视为一个数据集合，利用模糊C均值算法得到所期望类数的聚类，并认为每个聚类中心所属的类与在第一阶段隶属于其的数据所属的类相同。同时，为了考察划分的可靠性，在此阶段，我们还引入了模糊熵量度来辅助完成聚类过程。为了考察两种算法的有效性，我们对其进行了数值实验。对于贴近度一密切关系传播算法，我们分别考察了其在含有少量样本的人工数据集，Iris数据集和 Yale人脸图像数据集上的聚类效果。对于大样本数据聚类算法，我们考察了其对 Iris数据集和Shuttle数据集的聚类效果。实验结果表明，这两种算法策略切实可行，并且在测试数据集上均取得了很好的聚类结果。关键词：模糊聚类；贴近度知识；模糊C均值算法；密切关系传播算法；大样本数据聚类英文摘要 ABSTRACT isa offundamentalendeavorsaimedat synonym Clusteringbroadlyaccepted indata．Inthis discussanissueof some findingpatterns study，we exploitingauxiliary hints availableasa ofdomain and them being part knowledgeeffectivelyincorporating intothe athand． pattemrecognitionproblem Firstof new named all，a knowledge-drivenalgorithmProximity clustering introduced．Itmakes the criterionand AffinityPropagation(P-AP)isuseof predefined the hints usersto the matrix．Thiskindof proximity modifysimilarity givenby strategy makesthe moreflexibletosome becauseit clusteringprocess specificproblems involvesthe analyzer’Sk