基于多核改进模糊聚类算法.docVIP

下载本文档

5
0
约6.66千字
约 13页
2018-08-29 发布于福建
举报
版权申诉

基于多核改进模糊聚类算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于多核改进模糊聚类算法

基于多核改进模糊聚类算法　　摘要：为了对含有噪声和离群点的多特征类样本数据进行有效的聚类，提出了一种基于多核的改进模糊聚类算法。该算法选取子核函数构造多核函数，将输入的样本经多核函数进行映射，增加了不同类别样本间的区分度，提高核函数的学习能力和泛化能力。实验结果表明，该算法对于多样本数据具有比单核更好的聚类效果。　　关键词：聚类；核函数；多核函数　　中图分类号：TP181 文献标识码：A 文章编号：1009-3044（2018）15-0007-03 　　Improved Fuzzy Clustering Algorithm Based On Multiple Kernel 　　HE Yan-fang，CHEN Xiao-chun 　　（Department of Information Engineering， Guangdong Polytechnic College， Zhaoqing 526100， China）　　Abstract： For the effective clustering of multi -feature sample data that contain noise and outliers， an improved fuzzy clustering algorithm based on multi-core is proposed. The algorithm selected sub kernel function to construct multi-core function， and mapped the input samples by multi-core function， which increases the distinguish of different categories of samples， and improves the learning ability and generalization ability of kernel function. The experimental results have show that the algorithm has a better clustering effect than single core for multi sample data. 　　Key words： multi-view； clustering； spectral clustering 　　聚类分析在数据挖掘研究中占有重要地位，它将具有相似性的对象划分为同一簇中，不同的对象划分为不同的簇中 [1]。和经典的聚类算法相比，引入模糊理论的模糊聚类算法[2]能够对样本属性进行不确定性描述，具有更好的聚类效果。其中，模糊C均值聚类算法[3-4]对噪声点和野值点较敏感，具有计算简单，聚类效果较好的特点，但聚类效果主要根据样本点的分布情况进行聚类。当各类样本的边界值受噪声干扰较大且边界点差异较大时，模糊聚?算法的聚类效果较差。故在模糊聚类中引用核方法[5]，核方法通过选取合适的核函数将输入空间的特征数据非线性映射到高维特征空间，增大数据间的差异性，同时提高数据点可线性分类的比例。目前的核模糊聚类虽然能够处理噪声干扰点对聚类的影响问题，但是该算法研究主要集中在单核的构造。　　针对目前提出的多数据样本数据集的聚类问题，文献[6]提出了把多个核组合一起的多核学习概念。多核模型是一种基于不同核学习的模型。对于多特征数据来说，它具有比单核模型更优的性能和精确度。文献[7]把多核模型主要应用于医学的生物序列数据分类的领域，解决了医学的基因序列问题。本文借鉴多核函数进行多种数据源分类的模型，将多核学习引入到模糊C均值聚类中，解决模糊聚类中的多种数据源的问题，同时引入非欧式距离，将离中心近的点对聚类贡献大，而稍远的点贡献小的问题降低到最低，这样能更好地解决受噪声和离群点的数据的问题，让算法更有效。　　1相关研究　　1.1核函数　　假设将输入空间数据样本[xk∈RN，K=1，2，…，l]，，非线性映射到高维特征H得到[H（x1），H（x2），…，H（xl）]，那么输入特征空间的数据用Mercer核点积形式来描述为：　　[K（xi，xj）=（H（xi）?H（xj））] （1）　　由所有样本组成核函数矩阵[Ki，j=K（xi，xj）]。它将原始样本数据从低维特征空间映射到高维特征空间，由于经过核函数的映射能使数据隐藏特征显示出来，进行更好的聚类。　　定理[8]1 如果[K（x，y）]是一个连续的对称核，则[x，y∈X]核[K（x，y）]可以展开为：　　[K（x，y）=i=1∞λiφi（x）φi（y） λi0] （2）