- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
BIRCH層次聚类算法浅探
BIRCH层次聚类算法浅探
郑泽宇 1300012810 何昊 1300012775
引言
聚类是把数据分类,达到同簇对象之间相似度最大。对于文档聚类,是把具有相似主题的文档进行归类,相当于对文档主题的提取,对于文档的搜索与存储具有重要意义。
聚类算法大概有五类:基于层次的算法;基于划分的方法;基于密度的方法;基于网格的方法;基于模型的方法
基本的层次聚类算法
根据层次分解的顺序由上而下或是由下而上,又分为凝聚的层次聚类算法和分裂的层次聚类算法。
凝聚的思想:把每个对象作为单独一类,合并最接近的两个簇并更新簇间距离,不断重复直到给定的终止条件
分裂的思想:把所有对象归于一个类没然后细分成小簇,直到给定的终止条件。
特点:不论是凝聚还是分裂,所有的过程都是不可逆的,即一旦合并或者分裂完成,就不能被撤销
BIRCH算法
Birch算法是利用数据点的聚类特征CF值构建一棵CF树来进行聚类的。通过CF值可以快速的进行间聚类,和同一个类中相似程度的估计。
具体的:CF是一个三元组(N,LS,SS),N是包含向量的个数,LS是向量的线性和,SS是向量的平方和。
同时对于向量簇定义如下量:
进行数学演算之后得到
簇直径D为
两簇之间的距离D2为
CF具有极好的线性性质
对于两簇合并
CF = CF1 + CF2
(N,LS,SS,) = (N1+N2, LS1+LS2, SS1+SS2)
有了CF值后,如下构建一棵CF树:
算出新数据点的CF值
从根开始插入新的CF值
若还未到叶子,则选择CF值与待插入节点最接近的子树中插入
若已经到了叶子节点,则选择CF值与带插入节点最接近的簇进行预插入
返回并检查
若插入后,簇直径大于预设阈值T,则不进行插入,把新来的节点作为一个新的簇
返回到某个节点时若该节点儿子个数因为插入而增加并大于预设阈值B的时候,则该节点分裂。特别的若分裂的是根节点则新建根节点,即树高增加1。
注:
树中节点的分裂办法为,设要分裂的为U节点,他的儿子们是x1,x2,x3,…,xn,寻找相距最远的xi与xj。然后把x1,…,xn一分为二,离xi近的分到与xi一组中,离xj近的与xj一组。这样就把儿子分成了两部分,然后U分裂为U和U’ ,U个儿子为xi那一簇,U’的儿子为xj的那一簇。
这样就把CF树完成了
然后继续进行文档分类
问题:
给出50000篇已经分好词的文章,利用学习到的文档特征向量提取的技巧,以及聚类算法,对文档进行分类,并与标准结果进行匹配。
解决思路:
我们的想法非常简单暴力:
1.利用课上学习的TD TDF值构建文章的特征向量其中,剔除掉了只出现一次的词(因为在没有进行相似词的学习的基础上,其不具备匹配的意义),以及剔除掉了出现频率高于10000的词(由于其出现的太频繁,是一些标点与连词不具备匹配的意义)
2.利用学习的BIRCH算法对于文档进行层次聚类。
3.对每一篇文档,重新进入CF树,寻找一条根到叶子的路径,满足每次走的节点都是和文档CF最接近的。该路径就代表了该文档的分类。
下为示意图:
一篇关于有机化学内容的文章就应该沿着123的路径走,这样就的得到的每一篇文章的分类。
尝试情况
首先,为了方便调试我们先用文档的小数据进行了测试实际情况调整参数后,第一层的达到61.910784%所有层次的F值达到%。
继续努力调整参数,但结果并无显著提升。查阅资料后得知,影响聚类结果的关键参数是T,但没有人给出计算T十分的方法我们论文中提供的方法,取平均T值等方法,均未得到满意的效果。
由于时间紧迫,大数据,当然结果并不令人满意,只有14.012091%。
由于BIRCH算法的不可逆性,初始的输入顺序会对结果产生影响,进行预聚类得到一个比较优的顺序后再跑BIRCH结果应该会更好。
对于BIRCH算法的B,L,T值的预设我们是手动尝试,没有进行理论上的计算得出一个有物理的意义的取值,如果有好的阈值应该可以是结果更优。
通过查阅互联网资料得知,通常情况下,birch算法在构建CF树后,还会再通过全局聚类算法对聚类结果进行调整,这样才构成完整的birch算法。不过由于时间关系,我们并没有实现这一部分。
一篇文章的向量插入CF树后其信息就被压缩了所以从时间效率上birch算法具有较大优势但是结果的质量可能大打折扣
在和其他同学的交流中发现很多同学都对文章向量做出了不同程度的修改而我们一直致力于通过调整birch算法的参数如果能够在向量的构造上有所改进结果应该会更优
物理
化学
生物
有机
无机
结构
1
2
3
您可能关注的文档
- 720世纪重大思想理论成果现代科技文化.doc
- AutodeskInventor2011产品设计中的轻量化装配和优化方法.docx
- ArcGIS下制作就业率和平均工资专题图.doc
- 7联想万全R680G7服务器安装部署Vmware虚拟化系统说明书.doc
- Agilent355型硫化学发光检测器(355SCD).PDF
- A线性代数A期末试卷.doc
- AIS信息服务平台手机APP安装.doc
- A施工测量放线报验表.doc
- AATCC8-2007(英文版)摩擦色牢度.PDF
- AHDEB油田地面工程項目.doc
- 2023年江苏省镇江市润州区中考生物二模试卷+答案解析.pdf
- 2023年江苏省徐州市邳州市运河中学中考生物二模试卷+答案解析.pdf
- 2023年江苏省苏州市吴中区中考冲刺数学模拟预测卷+答案解析.pdf
- 2023年江苏省南通市崇川区田家炳中学中考数学四模试卷+答案解析.pdf
- 2023年江西省吉安市中考物理模拟试卷(一)+答案解析.pdf
- 2023年江苏省泰州市海陵区九年级(下)中考三模数学试卷+答案解析.pdf
- 2023年江苏省苏州市高新二中中考数学二模试卷+答案解析.pdf
- 2023年江苏省南通市九年级数学中考复习模拟卷+答案解析.pdf
- 2023年江苏省南通市海安市九年级数学模拟卷+答案解析.pdf
- 2023年江苏省泰州市靖江外国语学校中考数学一调试卷+答案解析.pdf
最近下载
- 第三节 免疫分析仪器的维护_医疗设备维护概论_第四章 医用检验设备的维护.pptx
- 垃圾分类整治工作总结.pptx
- 2024年常见人力资源面试题库(通用7篇).pdf
- 《糟糕,身上长条纹了!》绘本故事PPT2套.pptx
- 25题规划发展岗位常见面试问题含HR问题考察点及参考回答.pdf
- 清华大学央企班组长远程培训自测题及答案(17门课合集).pptx
- 英语国家概况课后习题答案解析(完整版).doc
- 幼儿园 大班数学《美丽的对称图形》.pptx VIP
- 新视野大学英语(第三版)读写教程Section B-Too much of a good thing – A real addiction.ppt
- 2023年中小学教师职称考试试题含答案.docx
文档评论(0)