面向大数据集递增聚类方法研究.docVIP

下载本文档

4
0
约5.29千字
约 10页
2018-09-22 发布于福建
举报
版权申诉

面向大数据集递增聚类方法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

面向大数据集递增聚类方法研究

面向大数据集递增聚类方法研究　　摘要：以往提出的面向大数据集的递增聚类方法直接将多维度的大数据集转换成一维大数据集，导致聚类成果不佳，故提出面向大数据集的递增聚类新方法。为取得高聚类效率，在高度保留原始数据维度的情况下，简化了大数据集递增聚类步骤，构建出大数据处理集合，对集合中的标志样本进行局部递增聚类，将未能成功聚类的大数据平均分配到局部递增聚类结果中，使用高斯概率密度函数和证据理论检测其中的错误坐标并进行改正，获取最终的递增聚类结果。实验结果证明该方法具有优越的聚类成果和聚类效率。　　关键词：大数据集；递增聚类方法；高斯概率密度函数；证据理论　　中图分类号： TN911?34； TP311.13 文献标识码： A 文章编号： 1004?373X（2017）09?0176?03 　　Abstract： Since the clustering effect is poor because the previously?proposed incremental clustering method converts the multi?dimensional large dataset into the one?dimensional large dataset directly， a new incremental clustering method for large dataset is put forward. In order to obtain the high clustering efficiency， the incremental clustering step of the large dataset was simplified while highly maintaining the original data dimensions to construct a large data processing set. The local incremental clustering is performed for the logo samples in the set. The large data with failed clustering is distributed into the local incremental clustering results equally， and its fault coordinate is detected with Gaussian probability density function and coordinate evidence theory and modified. The final incremental clustering results are obtained. The experiment results prove that the proposed method has superior clustering effect and clustering efficiency. 　　Keywords： large dataset； incremental clustering method； Gaussian probability density function； evidence theory 　　0 引言　　聚类的实质就是把大数据分层，同层中的大数据特征拥有共通性，而不同层中的大数据特征存在明显差异，并且大数据特征是可以被提取和描述的[1]。递增聚类是其中一种无监督式的分析手段，在语音识别、色彩分类和纹理提取等搜索层面中均有涉及，受到了广泛的关注。递增聚类的基本原理类似于度衡量技术和最优函数，它依据特定标准在未经处理过的大数据集中挖掘隐晦的递增聚类架构[2]。在实际应用中，类似度衡量技术的稳定性不佳，经常受到大数据递增结构、聚类密度、大数据维度等方面的?s束，致使递增聚类达不到目标聚类的成果[3]。增强递增聚类中类似度衡量技术的稳定性一直是科研人员的研究基础，一些优秀的类似度衡量技术的稳定性解决方法，如相邻大数据共享策略、密度敏感性度量等均是在大数据维度不高的情况下被提出的，在高维度应用中上述方法的迭代次数过多，大幅度降低了聚类效率。　　综上所述，以往提出的面向大数据集的递增聚类方法常受限于类似度衡量技术的稳定性，并没有取得优越的聚类成果和聚类效率[4]。解决这一问题的主要方式就是构建出能够有效平衡大数据维度的大数据处理集合，在此基础上分层次地获取到递增聚类结果，再对各层次的递增聚类结果进行汇总，使用合理的处理手段给出统一的递增聚类结果。基于上述分析，提出一种面向大数据集的递增