高维海量数据联合聚类算法的研究和应用.pdfVIP

  • 3
  • 0
  • 约7.38万字
  • 约 62页
  • 2015-11-01 发布于安徽
  • 举报

高维海量数据联合聚类算法的研究和应用.pdf

高维海量数据联合聚类算法的研究与应用 摘要 联合聚类是新近的无监督的数据分析的范例,但是它变得日益流 行是由于它发现隐藏的局部模式的潜力,和通常的无监督的运算法则 比如说k.均值发现聚类不同。联合聚类的广泛部署需要面临数据转 换、聚类的初始化、可扩展性等大量的实践的挑战。因此,这篇论文 聚焦于使发展中的联合聚类方法更加成熟,并且它的最终目标是促使 联合聚类作为各种各样的实际应用中不可缺少的无监督的分析工具。 为了完成这样的目标,我们提出了三项明确的任务:(1)发展联合聚 类运算法则使它具有功能性、适应性和扩展性;(2)联合聚类运算法 则的扩展适应专门的应用需求;(3)联合聚类运算法则的应用广泛地 存在于实际应用领域显现的难题中。 就联合聚类的运算法则来说,我们提出了改进的贝叶斯联合聚类 算法。它允许在行和列中有混合的类,也就是说聚类的对象既属于一 个类,也属于另一个类。这个算法是用指数族的概率分布理论去发现 联合聚类生成的类。同时,为了自动估计行和列的类数,文中还提出 了基于贝叶斯信息准则的类别数估计算法。 关于联合聚类的扩展,我们为一般的联合聚类的方法提出了基于 逐步对应分析法的快速联合聚类的框架。它不需要把整个数据矩阵都 放进内存里,这对于高维海量数据是至关重要的。这个框架可以使用 七:均值、信息论和贝叶斯等不同的联合聚类运算法则。它在执行效率 上优于上述运算法则,而与其它方法有差不多的正确率。 关于联合聚类的应用,我们扩展了贝叶斯联合聚类的功能来适应 特别应用的需求。通过基于逐步对应分析法的贝叶斯联合聚类方法可 以从高维海量数据中发现一致的联合聚类,它的目的是对行和列进行 选择,然后通过贝叶斯联合聚类算法来同时聚类行和列。最后,我们 阐述了该算法框架应用于各种各样仿真的和真实的数据得出的结果。 总之,我们介绍了联合聚类算法能发现隐藏的有用的信息,提出 了算法的扩展来适应专门的需求,并且将它们应用于广阔的实践领 域。 关键词:高维海量数据;对应分析;联合聚类;贝叶斯联合聚类 II 圳Y…j1 洲7㈣3Ⅲ6帅叫—● 川9㈣2 rchand I i i on Oo一0I i Resea cat on uster App ng AI i thmsforHi Di mensi onal gor gh and Data VeryLarge ABSTRACT isratherarecent for data Co—clustering paradigm unsupervised ithasbecome becauseofits to analysis,but increasinglypopular potential discoverlatentlocal usual patterns,otherwise unapparentby suchask—me

文档评论(0)

1亿VIP精品文档

相关文档