BIRCH層次聚类算法浅探.docVIP

下载本文档

12
0
约1.96千字
约 5页
2017-03-23 发布于重庆
举报

BIRCH層次聚类算法浅探.doc

BIRCH層次聚类算法浅探

BIRCH层次聚类算法浅探郑泽宇 1300012810 何昊 1300012775 引言聚类是把数据分类，达到同簇对象之间相似度最大。对于文档聚类，是把具有相似主题的文档进行归类，相当于对文档主题的提取，对于文档的搜索与存储具有重要意义。聚类算法大概有五类：基于层次的算法；基于划分的方法；基于密度的方法；基于网格的方法；基于模型的方法基本的层次聚类算法根据层次分解的顺序由上而下或是由下而上，又分为凝聚的层次聚类算法和分裂的层次聚类算法。凝聚的思想：把每个对象作为单独一类，合并最接近的两个簇并更新簇间距离，不断重复直到给定的终止条件分裂的思想：把所有对象归于一个类没然后细分成小簇，直到给定的终止条件。特点：不论是凝聚还是分裂，所有的过程都是不可逆的，即一旦合并或者分裂完成，就不能被撤销 BIRCH算法 Birch算法是利用数据点的聚类特征CF值构建一棵CF树来进行聚类的。通过CF值可以快速的进行间聚类，和同一个类中相似程度的估计。具体的：CF是一个三元组（N，LS，SS），N是包含向量的个数，LS是向量的线性和，SS是向量的平方和。同时对于向量簇定义如下量：进行数学演算之后得到簇直径D为两簇之间的距离D2为 CF具有极好的线性性质对于两簇合并 CF = CF1 + CF2 （N，LS，SS，） = （N1+N2， LS1+LS2， SS1+SS2）有了CF值后，如下构建一棵CF树：算出新数据点的CF值从根开始插入新的CF值若还未到叶子，则选择CF值与待插入节点最接近的子树中插入若已经到了叶子节点，则选择CF值与带插入节点最接近的簇进行预插入返回并检查若插入后，簇直径大于预设阈值T，则不进行插入，把新来的节点作为一个新的簇返回到某个节点时若该节点儿子个数因为插入而增加并大于预设阈值B的时候，则该节点分裂。特别的若分裂的是根节点则新建根节点，即树高增加1。注：树中节点的分裂办法为，设要分裂的为U节点，他的儿子们是x1,x2,x3,…,xn，寻找相距最远的xi与xj。然后把x1,…,xn一分为二，离xi近的分到与xi一组中，离xj近的与xj一组。这样就把儿子分成了两部分，然后U分裂为U和U’ ,U个儿子为xi那一簇，U’的儿子为xj的那一簇。这样就把CF树完成了然后继续进行文档分类问题：给出50000篇已经分好词的文章，利用学习到的文档特征向量提取的技巧，以及聚类算法，对文档进行分类，并与标准结果进行匹配。解决思路：我们的想法非常简单暴力： 1.利用课上学习的TD TDF值构建文章的特征向量其中，剔除掉了只出现一次的词（因为在没有进行相似词的学习的基础上，其不具备匹配的意义），以及剔除掉了出现频率高于10000的词（由于其出现的太频繁，是一些标点与连词不具备匹配的意义） 2.利用学习的BIRCH算法对于文档进行层次聚类。 3.对每一篇文档，重新进入CF树，寻找一条根到叶子的路径，满足每次走的节点都是和文档CF最接近的。该路径就代表了该文档的分类。下为示意图：一篇关于有机化学内容的文章就应该沿着123的路径走，这样就的得到的每一篇文章的分类。尝试情况首先，为了方便调试我们先用文档的小数据进行了测试实际情况调整参数后，第一层的达到61.910784%所有层次的F值达到%。继续努力调整参数，但结果并无显著提升。查阅资料后得知，影响聚类结果的关键参数是T，但没有人给出计算T十分的方法我们论文中提供的方法，取平均T值等方法，均未得到满意的效果。由于时间紧迫，大数据，当然结果并不令人满意，只有14.012091%。由于BIRCH算法的不可逆性，初始的输入顺序会对结果产生影响，进行预聚类得到一个比较优的顺序后再跑BIRCH结果应该会更好。对于BIRCH算法的B,L,T值的预设我们是手动尝试，没有进行理论上的计算得出一个有物理的意义的取值，如果有好的阈值应该可以是结果更优。通过查阅互联网资料得知，通常情况下，birch算法在构建CF树后，还会再通过全局聚类算法对聚类结果进行调整，这样才构成完整的birch算法。不过由于时间关系，我们并没有实现这一部分。一篇文章的向量插入CF树后其信息就被压缩了所以从时间效率上birch算法具有较大优势但是结果的质量可能大打折扣在和其他同学的交流中发现很多同学都对文章向量做出了不同程度的修改而我们一直致力于通过调整birch算法的参数如果能够在向量的构造上有所改进结果应该会更优物理化学生物有机无机结构 1 2 3

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

BIRCH層次聚类算法浅探.docVIP