基于频繁词序列的层次文本聚类算法研究.pdfVIP

下载本文档

6
0
约7.18千字
约 3页
2017-04-15 发布于北京
举报
版权申诉

基于频繁词序列的层次文本聚类算法研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于频繁词序列的层次文本聚类算法研究.pdf

? 44 ? Computer Era No. 4 2009 基于频繁词序列的层次文本聚类算法研究马文超\张建国2，胡冰1 (1.河南大学计算机与信息工程学院，河南开封 475001 ; 2 中共漂河市委党校) 摘要 : 提出一种基于频繁词序列的层次文本聚类算法，该算法考虑频繁词的次序关系和频繁词序列的文本频繁的重妥性，构造了一种更合理的层次关系。实验证明，基于频繁词序列的层次文本聚类算法能够提高文本聚类的精确度。关键词: 文本聚类;频繁词序列;层次结构;类描述 0 引言文本数据自身的特点和互联网海量的数据极大地限制了信息检索的精确度。为提高文本检索的精度，算法设计需要考虑文本数据的特点: 大多数文档是用自然语言来写的，句子的准确意思和出现在句子里的词语的顺序有着紧密的关系。所以文本模型最好能够保留文档中词语|司的次序关系。通常一篇新闻中有200到 1000个词。因此，要有效地4处理像万维网这样的文本数据库，算法应该设法降低数据维度。一个文档可能涵盖一个以上的主题。所以文档类之间应该允许一定的重叠。此外，给每个聚类结果一个类标号是十分必要的，因为类标号为聚类结果提供了一个描述。这样用户可以容易地知道这个类所关联的内容。当聚类过程结束的时候离去确定类标号是十分耗时的。在聚类之前聚类的数目是朱知的，应该让算法自己去找到聚类的数目。本文提出的基于频繁词序列的层次文本聚类算法，考虑了文本数据的具体特点。频繁词序列是指在文档中以一定的次序频繁出现的词语序列。该算法把文档作为有序的词语序列，而不是词语的无序集合，文档间是否含有相同的频繁词语序列是衡量它们之间的相似度的标准。挖掘频繁琐集是一种重要的数据挖掘技术，是关联规则挖掘事务数据集的一部分。最近，一些聚类算法用频繁词语集合来比较文档之间的相似度。考虑到文本文档和事务数据的不同，频繁词语序列比频繁词语集合更适合于文本聚类。由于文档中词语顺序的重要性，我们没有采用向量空间模型i句。在我们的算法中，每篇文档都用频繁词序列来表示，文档被压缩成频繁词语序列的集合。这样的文本表示方法保留了频繁词语的次序，比频繁词更能表达文挡的语义。 1 研究现状传统的聚类算法有两类:基于划分的 k均值算法和基于层次的凝聚聚类算法。凝聚的层次聚类算法首先把每个文档作为一个聚类，利用不同的距离函数计算所有聚类之间的相似度，然后合并最相近的聚类直到得到想要的聚类数因为止。在凝聚的层次聚类中类之间的重复是不允许的。相对于自底向上的凝聚的层次聚类算法，K均值算法则基于文档的划分。该算法将质心看成是同类元素的凝聚中心。当选择k个初始质心以后，每篇文档被指定到一个基于一定距离度量的类，然后重新计算k 个质心，重复这个步骤直到得到最佳的k个聚类类别为止。以上两类算法均不能很好处理文本数据库。近年来，许多新的算法考虑了文本数据的具体特点，把频繁词语集合的概念用于文本聚类。用频繁项集取代距离函数作为聚类的标准。文献[1)中的问C算法利用文档之间共同包含的频繁词语集合来衡量文档之间的聚合相支。文献[2)提出了基于频繁项的层次文本聚类算法，认为同一个类别中的文档应该比不同类别间的文档包含更多的相同频繁词语集合，应直接用频繁词语集合衡量类别之间的聚合程度。 FIHC用频繁词语集合构建聚类并把各个类别组织成一个主题层次结构。和传统的聚类算法比起来，这些新的算法在精确度方丽很有竞争力。文献[5) 提出将句子看做文档的基本语义单元，但是没有考虑句子中词语间的序列关系，没有对聚类结果进行描述。这些新算法的一个优点就是为每个类别提供了一个类标号。类标号是各类文档中所包含的频繁词语集合。以上这些算法所有在的问题是在很多情况下依赖于不能很好表示文档语义的无序的频繁词语集合。频繁词集合的概念是基于事务数据库中的频繁项集的。事务中的项目是独立的，所以改变事务中项目的顺序不会影响这个数据廊上数据挖掘的结果。但是，文本数据是不同的，文参考文献 : ~剑铺吉，且晋峙，黄豆锥.据挖掘申 tIl .t哥哥盖处，重 [J[ .针算机科穆， [1] 1. 瓢，范麟电.中@世传行血服务伪乱状 4、精伽吨 *-[J] . i队司~Ii.借钱 2000.27(4):54-58 术，2002 . 2. [5] Jiawei Han ,Micheline Kamber，范铺，孟晶啡伴 ..据挖掘裁-$-h 然 [2] 必.l. 4.J..1象真畸份量且叶拼命集镇型喝研究品怠周 [D] . .舍巴A 水阳i机钱玉立蛊版私，2001. 血来带硕士.f ti铃~，2006 . [6] Data