基于频繁词序列的层次文本聚类算法研究.pdfVIP

基于频繁词序列的层次文本聚类算法研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于频繁词序列的层次文本聚类算法研究.pdf

? 44 ? Computer Era No. 4 2009 基于频繁词序列的层次文本聚类算法研究 马文超\张建国2,胡冰1 (1.河南大学计算机与信息工程学院,河南开封 475001 ; 2 中共漂河市委党校) 摘 要 : 提出一种基于频繁词序列的层次文本聚类算法,该算法考虑频繁词的次序关系和频繁词序列的文本频繁的重 妥性,构造了一种更合理的层次关系。 实验证明 ,基于频繁词序列的层次文本聚类算法能够提高文本聚类的精确度。 关键词: 文本聚类;频繁词序列;层次结构;类描述 0 引言 文本数据自身的特点和互联网海量的数据极大地限制了 信息检索的精确度。 为提高文本检索的精度,算法设计需要考 虑文本数据的特点: 大多数文档是用自然语言来写的,句子的准确意思和出现 在句子里的词语的顺序有着紧密的关系。 所以文本模型最好 能够保留文档中词语|司的次序关系。 通常一篇新闻中有200到 1000个词。 因此,要有效地4处理 像万维网这样的文本数据库,算法应该设法降低数据维度。 一个文档可能涵盖一个以上的主题。 所以文档类之间应 该允许一定的重叠。 此外,给每个聚类结果一个类标号是十分必要的,因为类 标号为聚类结果提供了一个描述。 这样用户可以容易地知道 这个类所关联的内容。 当聚类过程结束的时候离去确定类标 号是十分耗时的。 在聚类之前聚类的数目是朱知的,应该让算法自己去找到 聚类的数目 。 本文提出的基于频繁词序列的层次文本聚类算法,考虑了 文本数据的具体特点。 频繁词序列是指在文档中以一定的次 序频繁出现的词语序列。 该算法把文档作为有序的词语序列, 而不是词语的无序集合,文档间是否含有相同的频繁词语序列 是衡量它们之间的相似度的标准。 挖掘频繁琐集是一种重要的数据挖掘技术,是关联规则挖 掘事务数据集的一部分。 最近,一些聚类算法用频繁词语集合 来比较文档之间的相似度。 考虑到文本文档和事务数据的不 同 ,频繁词语序列比频繁词语集合更适合于文本聚类。 由于文档中词语顺序的重要性,我们没有采用向量空间模 型i句。 在我们的算法中,每篇文档都用频繁词序列来表示,文档 被压缩成频繁词语序列的集合。 这样的文本表示方法保留了 频繁词语的次序,比频繁词更能表达文挡的语义。 1 研究现状 传统的聚类算法有两类:基于划分的 k均值算法和基于层 次的凝聚聚类算法。 凝聚的层次聚类算法首先把每个文档作为 一个聚类,利用不同的距离函数计算所有聚类之间的相似度,然 后合并最相近的聚类直到得到想要的聚类数因为止。 在凝聚的 层次聚类中类之间的重复是不允许的。 相对于自底向上的凝聚 的层次聚类算法,K均值算法则基于文档的划分。 该算法将质 心看成是同类元素的凝聚中心。 当选择k个初始质心以后,每 篇文档被指定到一个基于一定距离度量的类,然后重新计算k 个质心,重复这个步骤直到得到最佳的k个聚类类别为止。 以 上两类算法均不能很好处理文本数据库。 近年来,许多新的算法考虑了文本数据的具体特点,把频繁 词语集合的概念用于文本聚类。 用频繁项集取代距离函数作为 聚类的标准。 文献[1)中的问C算法利用文档之间共同包含的频 繁词语集合来衡量文档之间的聚合相支。 文献[2)提出了基于频 繁项的层次文本聚类算法,认为同一个类别中的文档应该比不 同类别间的文档包含更多的相同频繁词语集合,应直接用频繁 词语集合衡量类别之间的聚合程度。 FIHC用频繁词语集合构 建聚类并把各个类别组织成一个主题层次结构。 和传统的聚类 算法比起来,这些新的算法在精确度方丽很有竞争力。 文献[5) 提出将句子看做文档的基本语义单元,但是没有考虑句子中词 语间的序列关系,没有对聚类结果进行描述。 这些新算法的一个 优点就是为每个类别提供了一个类标号。 类标号是各类文档中 所包含的频繁词语集合。 以上这些算法所有在的问题是在很多 情况下依赖于不能很好表示文档语义的无序的频繁词语集合。 频繁词集合的概念是基于事务数据库中的频繁项集的。 事务中的项目是独立的,所以改变事务中项目的顺序不会影响 这个数据廊上数据挖掘的结果。 但是,文本数据是不同的,文 参考文献 : ~剑铺吉 , 且晋峙,黄豆锥.据挖掘申 tIl .t哥哥盖处,重 [J[ .针算机科穆, [1] 1. 瓢, 范麟电.中@世传行血服务伪乱状 4、精伽吨 *-[J] . i队司~Ii.借钱 2000.27(4):54-58 术,2002 . 2. [5] Jiawei Han ,Micheline Kamber, 范铺 ,孟晶啡伴 ..据挖掘裁-$-h 然 [2] 必.l. 4.J..1象真畸份量且叶拼命集镇型喝研究品怠周 [D] . .舍巴A 水阳i机钱玉立蛊版私 ,2001. 血来带硕士.f ti铃~,2006 . [6] Data

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档