- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
文本自动分类聚类技术
聚类算法的评价 可伸缩性 能够处理不同类型的属性 能发现任意形状的簇 在决定输入参数的时候,尽量不需要特定 的领域知识; 能够处理噪声和异常 对输入数据对象的顺序不敏感 能处理高维数据 能产生一个好的、能满足用户指定约束的聚 类结果 结果是可解释的、可理解的和可用的 文档模型与类间距离 向量空间模型 向量空间模型(Vector Space Model) M个无序标引项ti (特征),词根/词/短语/其他 每个文档dj可以用标引项向量来表示 ?(a1,a2j,…,aMj) 权重计算,N个训练文档 ?AM*N= (aij) 相似度计算 ?Cosine计算 ?内积计算 类间距离 类Gp与类Gq之间的距离Dpq (d(xi,xj)表示点xi∈ Gp和xj ∈ Gq之间的距离) 最短距离法: 最长距离法: Dpq = mind(xi , xj) Dpq = maxd(xi , xj) 重心法: 类平均法: Dpq = mind(xp , xq) 离差平方和:(Wald) 聚类算法 聚类方法 划分的方法 层次的方法 基于密度的方法 基于网格的方法 在线聚类 划分方法 划分方法(partitioning method) 划分方法的基本思想是,给定一个n个样本的数据集,划分方法将数据划分为k个簇(k=n), 满足: a.每个簇至少包含一个样本; b.每个样本必须属于且仅属于一个簇。 划分方法 将文档集D={d1, … ,di ,… ,dn} 分割为的若干类,具体过程: 1.确定要生成的类的数目 k; 2.按照某种原则生成k个聚类中心作为聚类的种子 S={s1, … ,sj , … ,sk}; 3.对D中的每一个文档di ,依次计算它与各个种子sj 的相似度sim(di , sj ); 4.选取具有最大的相似度的种子arg max sim(di , sj ),将di归入以sj 为聚类中心的类Cj ,从而得 到D的一个聚类C={c1, … ,ck}; 5.重复步骤2~4若干次,以得到较为稳定的聚类结果 该方法速度快,但k要预先确定,种子选取难。 层次聚类 层次聚类 自底向上的聚类(凝聚) 每一项自成一类 迭代,将最近的两类合为一类 自顶向下的聚类(分裂) 将所有项看作一类 找出最不相似的项分裂出去成为两类 层次聚类 凝聚层次聚类 将文档集D={d1, … ,di , … ,dn} 中的 每一个文档di看作是一个具有单个成员的类 Ci={di},这些类构成了D的一个聚类 C={c1,…,ci ,…,cn}; 计算C中每对类( ci , cj )之间的相似度sim(ci , cj ); 选取具有最大相似度的类对arg maxsim (ci , cj ),并将ci 和cj合并为一个新的类 ck=ci∪cj,从而构成D的一个新的类 C={c1, … ,cn-1}; 重复上述步骤,直到C中只剩下一个类为止。 基于密度的方法 基于密度的方法 基于样本之间的距离的聚类方法只能发 现球状的簇; 基于密度的方法可用来过滤“噪声”孤 立点数据,以发现任意形状的簇。 主要思想:只要临近区域的密度(样本 的数目)超过某个阈值则继续聚类。即 对于给定簇中的每个样本,在一个给定 范围的区域中必须至少包含某个数目的 样本。 基于密度的方法 Clustering based on density (local cluster criterion), such as density-connected points Major features: Discover clusters of arbitrary shape Handle noise One scan Need density parameters as termination Several interesting studies: DBSCAN: Ester, et al. (KDD’96) OPTICS: Ankerst, et al (SIGMOD’99). DENCLUE: Hinneburg D. Keim (KDD’98) CLIQUE: Agrawal, et al. (SIGMOD’98
您可能关注的文档
最近下载
- 医师访谈记录.pdf VIP
- Unit 4 School Life 第3-4课时Reading and Rriting 课件 中职高一学年英语高教版基础模块1.ppt
- 最新中药饮片质量标准通则(试行).doc VIP
- 医学临床三基(输血学)-输血免疫学基础(精选试题).pptx VIP
- 我们的大脑的教学课件.ppt VIP
- 洞察世间智慧:哲学伴随我成长课件.ppt VIP
- 超星网课《汽车之旅》超星尔雅答案2023章节测验答案.doc VIP
- 老年人继承法培训课件.pptx VIP
- 科学湘科版二年级上册全册课件.pptx
- 第7课全球航路的开辟和欧洲早期殖民扩张【中职专用】《世界历史》(高教版2023基础模块).pptx VIP
文档评论(0)