- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于频繁词序列的层次文本聚类算法研究.pdf
? 44 ? Computer Era No. 4 2009
基于频繁词序列的层次文本聚类算法研究
马文超\张建国2,胡冰1
(1.河南大学计算机与信息工程学院,河南开封 475001 ; 2 中共漂河市委党校)
摘 要 : 提出一种基于频繁词序列的层次文本聚类算法,该算法考虑频繁词的次序关系和频繁词序列的文本频繁的重
妥性,构造了一种更合理的层次关系。 实验证明 ,基于频繁词序列的层次文本聚类算法能够提高文本聚类的精确度。
关键词: 文本聚类;频繁词序列;层次结构;类描述
0 引言
文本数据自身的特点和互联网海量的数据极大地限制了
信息检索的精确度。 为提高文本检索的精度,算法设计需要考
虑文本数据的特点:
大多数文档是用自然语言来写的,句子的准确意思和出现
在句子里的词语的顺序有着紧密的关系。 所以文本模型最好
能够保留文档中词语|司的次序关系。
通常一篇新闻中有200到 1000个词。 因此,要有效地4处理
像万维网这样的文本数据库,算法应该设法降低数据维度。
一个文档可能涵盖一个以上的主题。 所以文档类之间应
该允许一定的重叠。
此外,给每个聚类结果一个类标号是十分必要的,因为类
标号为聚类结果提供了一个描述。 这样用户可以容易地知道
这个类所关联的内容。 当聚类过程结束的时候离去确定类标
号是十分耗时的。
在聚类之前聚类的数目是朱知的,应该让算法自己去找到
聚类的数目 。
本文提出的基于频繁词序列的层次文本聚类算法,考虑了
文本数据的具体特点。 频繁词序列是指在文档中以一定的次
序频繁出现的词语序列。 该算法把文档作为有序的词语序列,
而不是词语的无序集合,文档间是否含有相同的频繁词语序列
是衡量它们之间的相似度的标准。
挖掘频繁琐集是一种重要的数据挖掘技术,是关联规则挖
掘事务数据集的一部分。 最近,一些聚类算法用频繁词语集合
来比较文档之间的相似度。 考虑到文本文档和事务数据的不
同 ,频繁词语序列比频繁词语集合更适合于文本聚类。
由于文档中词语顺序的重要性,我们没有采用向量空间模
型i句。 在我们的算法中,每篇文档都用频繁词序列来表示,文档
被压缩成频繁词语序列的集合。 这样的文本表示方法保留了
频繁词语的次序,比频繁词更能表达文挡的语义。
1 研究现状
传统的聚类算法有两类:基于划分的 k均值算法和基于层
次的凝聚聚类算法。 凝聚的层次聚类算法首先把每个文档作为
一个聚类,利用不同的距离函数计算所有聚类之间的相似度,然
后合并最相近的聚类直到得到想要的聚类数因为止。 在凝聚的
层次聚类中类之间的重复是不允许的。 相对于自底向上的凝聚
的层次聚类算法,K均值算法则基于文档的划分。 该算法将质
心看成是同类元素的凝聚中心。 当选择k个初始质心以后,每
篇文档被指定到一个基于一定距离度量的类,然后重新计算k
个质心,重复这个步骤直到得到最佳的k个聚类类别为止。 以
上两类算法均不能很好处理文本数据库。
近年来,许多新的算法考虑了文本数据的具体特点,把频繁
词语集合的概念用于文本聚类。 用频繁项集取代距离函数作为
聚类的标准。 文献[1)中的问C算法利用文档之间共同包含的频
繁词语集合来衡量文档之间的聚合相支。 文献[2)提出了基于频
繁项的层次文本聚类算法,认为同一个类别中的文档应该比不
同类别间的文档包含更多的相同频繁词语集合,应直接用频繁
词语集合衡量类别之间的聚合程度。 FIHC用频繁词语集合构
建聚类并把各个类别组织成一个主题层次结构。 和传统的聚类
算法比起来,这些新的算法在精确度方丽很有竞争力。 文献[5)
提出将句子看做文档的基本语义单元,但是没有考虑句子中词
语间的序列关系,没有对聚类结果进行描述。 这些新算法的一个
优点就是为每个类别提供了一个类标号。 类标号是各类文档中
所包含的频繁词语集合。 以上这些算法所有在的问题是在很多
情况下依赖于不能很好表示文档语义的无序的频繁词语集合。
频繁词集合的概念是基于事务数据库中的频繁项集的。
事务中的项目是独立的,所以改变事务中项目的顺序不会影响
这个数据廊上数据挖掘的结果。 但是,文本数据是不同的,文
参考文献 : ~剑铺吉 , 且晋峙,黄豆锥.据挖掘申 tIl .t哥哥盖处,重 [J[ .针算机科穆,
[1] 1. 瓢, 范麟电.中@世传行血服务伪乱状 4、精伽吨 *-[J] . i队司~Ii.借钱 2000.27(4):54-58
术,2002 . 2. [5] Jiawei Han ,Micheline Kamber, 范铺 ,孟晶啡伴 ..据挖掘裁-$-h 然
[2] 必.l. 4.J..1象真畸份量且叶拼命集镇型喝研究品怠周 [D] . .舍巴A 水阳i机钱玉立蛊版私 ,2001.
血来带硕士.f ti铃~,2006 . [6] Data
文档评论(0)