- 12
- 0
- 约1.96千字
- 约 5页
- 2017-03-23 发布于重庆
- 举报
BIRCH層次聚类算法浅探
BIRCH层次聚类算法浅探
郑泽宇 1300012810 何昊 1300012775
引言
聚类是把数据分类,达到同簇对象之间相似度最大。对于文档聚类,是把具有相似主题的文档进行归类,相当于对文档主题的提取,对于文档的搜索与存储具有重要意义。
聚类算法大概有五类:基于层次的算法;基于划分的方法;基于密度的方法;基于网格的方法;基于模型的方法
基本的层次聚类算法
根据层次分解的顺序由上而下或是由下而上,又分为凝聚的层次聚类算法和分裂的层次聚类算法。
凝聚的思想:把每个对象作为单独一类,合并最接近的两个簇并更新簇间距离,不断重复直到给定的终止条件
分裂的思想:把所有对象归于一个类没然后细分成小簇,直到给定的终止条件。
特点:不论是凝聚还是分裂,所有的过程都是不可逆的,即一旦合并或者分裂完成,就不能被撤销
BIRCH算法
Birch算法是利用数据点的聚类特征CF值构建一棵CF树来进行聚类的。通过CF值可以快速的进行间聚类,和同一个类中相似程度的估计。
具体的:CF是一个三元组(N,LS,SS),N是包含向量的个数,LS是向量的线性和,SS是向量的平方和。
同时对于向量簇定义如下量:
进行数学演算之后得到
簇直径D为
两簇之间的距离D2为
CF具有极好的线性性质
对于两簇合并
CF = CF1 + CF2
(N,LS,SS,) = (N1+N2, LS1+LS2, SS1+SS2)
有了CF值后,如下构建一棵CF树:
算出新数据点的CF值
从根开始插入新的CF值
若还未到叶子,则选择CF值与待插入节点最接近的子树中插入
若已经到了叶子节点,则选择CF值与带插入节点最接近的簇进行预插入
返回并检查
若插入后,簇直径大于预设阈值T,则不进行插入,把新来的节点作为一个新的簇
返回到某个节点时若该节点儿子个数因为插入而增加并大于预设阈值B的时候,则该节点分裂。特别的若分裂的是根节点则新建根节点,即树高增加1。
注:
树中节点的分裂办法为,设要分裂的为U节点,他的儿子们是x1,x2,x3,…,xn,寻找相距最远的xi与xj。然后把x1,…,xn一分为二,离xi近的分到与xi一组中,离xj近的与xj一组。这样就把儿子分成了两部分,然后U分裂为U和U’ ,U个儿子为xi那一簇,U’的儿子为xj的那一簇。
这样就把CF树完成了
然后继续进行文档分类
问题:
给出50000篇已经分好词的文章,利用学习到的文档特征向量提取的技巧,以及聚类算法,对文档进行分类,并与标准结果进行匹配。
解决思路:
我们的想法非常简单暴力:
1.利用课上学习的TD TDF值构建文章的特征向量其中,剔除掉了只出现一次的词(因为在没有进行相似词的学习的基础上,其不具备匹配的意义),以及剔除掉了出现频率高于10000的词(由于其出现的太频繁,是一些标点与连词不具备匹配的意义)
2.利用学习的BIRCH算法对于文档进行层次聚类。
3.对每一篇文档,重新进入CF树,寻找一条根到叶子的路径,满足每次走的节点都是和文档CF最接近的。该路径就代表了该文档的分类。
下为示意图:
一篇关于有机化学内容的文章就应该沿着123的路径走,这样就的得到的每一篇文章的分类。
尝试情况
首先,为了方便调试我们先用文档的小数据进行了测试实际情况调整参数后,第一层的达到61.910784%所有层次的F值达到%。
继续努力调整参数,但结果并无显著提升。查阅资料后得知,影响聚类结果的关键参数是T,但没有人给出计算T十分的方法我们论文中提供的方法,取平均T值等方法,均未得到满意的效果。
由于时间紧迫,大数据,当然结果并不令人满意,只有14.012091%。
由于BIRCH算法的不可逆性,初始的输入顺序会对结果产生影响,进行预聚类得到一个比较优的顺序后再跑BIRCH结果应该会更好。
对于BIRCH算法的B,L,T值的预设我们是手动尝试,没有进行理论上的计算得出一个有物理的意义的取值,如果有好的阈值应该可以是结果更优。
通过查阅互联网资料得知,通常情况下,birch算法在构建CF树后,还会再通过全局聚类算法对聚类结果进行调整,这样才构成完整的birch算法。不过由于时间关系,我们并没有实现这一部分。
一篇文章的向量插入CF树后其信息就被压缩了所以从时间效率上birch算法具有较大优势但是结果的质量可能大打折扣
在和其他同学的交流中发现很多同学都对文章向量做出了不同程度的修改而我们一直致力于通过调整birch算法的参数如果能够在向量的构造上有所改进结果应该会更优
物理
化学
生物
有机
无机
结构
1
2
3
您可能关注的文档
最近下载
- 2025《黄冈苏东坡文化传播现状分析概述》5500字.docx
- 疥疮诊疗中国专家共识(2026版)解读PPT课件.pptx VIP
- 妇科单孔腹腔镜手术临床案例荟萃读书札记.docx VIP
- 2026国考省考季-行测三色笔记【2026版】.pdf VIP
- 妇科单孔腹腔镜手术.pptx VIP
- 1.3+”开元盛世“与唐朝经济的繁荣课件2025--2026学年统编版七年级历史下册.pptx VIP
- LongJi供应商操作指引龙集采说明书用户手册.pdf
- QCC品管圈之降低口腔科初诊病人的等候时间.pptx VIP
- 标准图集-20S515-钢筋混凝土及砖砌排水检查井.pdf VIP
- 八年级下册历史第二单元 社会主义制度的建立与社会主义建设的探索思维导图.pdf VIP
原创力文档

文档评论(0)