汉语文本聚类与算法设计.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉语文本聚类与算法设计

汉语文本聚类与算法设计 本文由johnson11_219贡献 pdf文档可能在WAP端浏览体验不佳。建议您优先选择TXT,或下载源文件到本机查看。 汉语文本聚类及其算法设计 陈炯 1 2,范卓华 2,张虎 2 (1.山西综合职业技术学院电子分院,山西 太原 030006; 2. 山西大学 计算机和信息技术学院 ,山西 太原 030006) 摘要:本文主要针对传统的聚类算法倾向于识别大小类似的球形聚类簇,且对离群数据较为敏 感等问题,利用聚类簇代表点选取的方法,同时结合基于人进行聚类判断所遵循的基本原则,即聚 类中对象间距离应小于聚类间距离,设计了一种有效的聚类算法,实验结果表明算法是有效的。 关键词: 聚类 代表点 聚类簇 聚类中心 中图分类号:TP391 文献标识码:A , 引 言 随着互联网的出现,大量的文本信息如潮水般不断涌现,网络已经成为一个庞大而杂乱无章的 桌面图书馆。对海量的文献人们迫切需要能够自动实现文本的分类处理,在节省时间的同时更好的 定位查找自己需要的文献。有效的信息检索需要有良好的索引和文本内容概括,文本聚类便是解决 这类问题的一种手段。 文本聚类就是将一个训练文献集分成若干称为聚类簇(cluster)的子集,每个聚类簇中的成员 之间具有较大的相似性,而聚类簇之间的文本具有较小的相似性。文本分类一般是通过统计方法或 知识工程方法来实现的。知识工程方法需要编制大量的推理规则,因此其开发费用相当昂贵。相比 之下,统计方法由于其简单的机制,为大多数实用文本分类系统所采用。在基于统计的各种分类方 法中,它们的共同点是从文本中提取词汇信息, 并以特征向量的形式来表示文本。 基于以向量来表示 的文本,聚类算法有很多种,本文是通过在特征向量中选取代表点来完成聚类的。 1 聚类分析法 在日常生活、生产、科研、工作中,经常要对被研究的对象分类。研究和处理给定对象分类的 Analysis) 。 数学方法称为聚类分析(Clustering 聚类算法是数据挖掘中常用的方法之一。通常可以分为层次式和非层次式两种。本文介绍的是 层次式聚类方法。其优点是聚类的形成一般依赖于数据,而不是通过用户预定义的聚类数得到。它 通过对初始数据构造一个聚类层次来完成聚类。 初始, 输入的每个数据点被看成一个单独的聚类簇, 然后将成对的聚类簇一一合并,同时依据各聚类簇中各对象间的最大距离应小于各聚类簇之间的最 小距离的原则,在包含 N 个对象的 m 维单位空间中,对象间的平均距离为 1 m N 。按照“各聚类簇 中对象间距离不应超过此标准,而各聚类簇之间距离不应低于此标准”规则,来结束聚类的。聚类 簇合并的每一步,是合并距离最小的一对聚类簇。常用的聚类簇合并策略有:合并重心最为靠近的 一对聚类簇;考察分属不同聚类簇的点之间的距离,并合并距离最小的一对数据点所对应的两个聚 类簇;合并所有数据点间距离的平均值最小的两个聚类簇;考察分属不同聚类簇的点对之间的最大 距离,合并该值最小的点对各自所在的聚类簇。如果待确定的各聚类簇内部数据点分布比较紧凑, 且各聚类簇之间足够远离,这些策略都会得到较好的结果。然而,如果各聚类簇比较靠近(即使一 些聚类簇之间是由离群数据连接的) 或者聚类簇的形状不是超球形的且聚类簇的大小差异较大, , 则 采用不同的合并策略产生的结果有相当大的差别。如果待聚类的资料为长条形结构,可能会使长条 形聚类簇被割裂开,而且会将割裂的属于不同聚类簇的子聚类簇合并成一个单独的聚类。从以上的 分析可以看出,基于重心的方法和考虑所有点的方法都不适用于非球形、任意形状的聚类。基于重 心的方法缺点在于它仅仅用一个点(即聚类簇的重心)来代表整个聚类簇。对于一个大的聚类簇或 是一个任意形状的聚类簇,它的各个子聚类簇的重心可能会距离相当远,这样就会导致这个聚类簇 被分割开。另一方面,考虑所有点的方法用一个聚类簇内的所有点来代表它,这样就会使得聚类算 法对离群数据极度敏感,而且数据点位置的微小变化都会导致算法结果有较大变动。此外大多数聚 类学习算法,均需用户事先给定聚类个数 K,且聚类结果对 K 值大小都很敏感,不同 K 值的聚类学 习结果往往大相径庭,但就目前的状况来说,如何选择合适的 K 值,本身就是一个难题。 2 2.1 算法设计及其实现 问题描述 给定任一训练文献集,根据某一聚类算法将其分为内容相近的几类。本文的聚类过程是建立在 文献已经分词并进行了词频统计的基础上的。利用分词和词频统计结果产生的词长、词频以及其它 有用数据来随机抽取特征词,根据抽取出的特征词形成每个文本的特征向量,分别求出任两

文档评论(0)

f8r9t5c + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8000054077000003

1亿VIP精品文档

相关文档