一种文档聚类新方法.pdfVIP

  • 4
  • 0
  • 约9.66千字
  • 约 6页
  • 2017-08-17 发布于安徽
  • 举报
Vol 苏35善专辑 兰州大学学报(自然科学学版) 35Supp JournalofLanzhou Augl999 999年8月 University(NaturalSciences) 文章编。g-:0155—2059(1999)0334—06 一种文档聚类新方法 周水庚,孙敬宇,胡运发 (复]九学计算机科学系,|=,行(田断、)数捌库研究中心一J二海200433) 摘要:本义扭川一种史档臻类新方法』}基本思想是利用数据挖掘,发现文档库中针对文档 或词的关联埘则.然后利用超吲划分并泣对关联规则超闺进{亍划分.从咖实现文档聚类文中 给{n了两种其似的实现算浊:一种是利用倒排文件进行文档关联规则挖掘;另~种则是基于文 柏向量模型实现i可(纠f)关联捌则发现 关键词:笑呋舭则:文档聚类,m量横!;!!.倒{{|:文件:超幽划分 0引言 的对象分配到不同的粪(组)中,使得同一类中的对象尽可能相似,而不同类中的对象尽可 Retrieval)领域中.聚类分析瑚丁对文档进行分类, 能相异‘1】.在信息检索([nformation 以改善信息检索的效率,或暂发现柴一领域文献的绸成结构¨] 目前主要的文档聚类方法有 两类,即层次聚类法(Hierarchjcal Ciustering). 为膏部分,每一部分即是~个聚类典刷的划分算法从构造一个初始划分开始,然后使tLfj 一羊中递归控制策B}优化一个口标嘲数每个聚类或者用它的重心表示(k-means算法),或 者用最接近其重¨的目杯表示(k-medoid算法).层次化算法对数据库口进行层次化分解. 这种层次化分解ir州一棵树来表示.这株树递归地将数据库口分解为越来越小的数据集合, 直到满足某一终Ir条件.层次化馋法不需要输入一个k值.就这方而{』|=,它比划分算法优 越其不足之处是必须指定一个终Ir条什.就文档聚类来说,常J日的非层次聚类算法有单遍 历法(Single averageLink)01等方法.这些算法 Lfnk)[”、全联(Coulplete】一ink)“和自l平均联(Group 的时间复杂度一般为0m’‘,,而空间需求大致为0御或口rⅣ≯(需要储存相似矩阵t,1). 近年来,随蔚数据挖掘研究的i;|{入年¨Internet的普及,对文本数据的挖掘也越来越引 起人们的重视.数据挖{屈技术止怠来愈多地被』近州到传统的信息检索领域.本文工作即是这 样的一种尝试往本文中,我们提“5了一种新的文档聚类方法.该方法首先利川数据挖掘算 收稿日期:1999.03.16 基金项目:同家863计划(863-306.ZT04—02.2)资助项目 作者简介:J刊水庚:1966-).男.f啊1‘生 专辑 周水庚等:一种文档聚类新方法 335 体实现算法:~种是利用倒排文什进行文档关联规则挖掘;另一种则是基于文档向蟮模型实 现词(组)关联规则发现. 本文其它内容安排如下:第l 1,简单介绍数据挖捌和关联规则发现的基本概念和算法; 第2节说明文档表达的两种基本模型:第3冉详细介绍基丁-关联规则挖掘的文档聚类方法; 第4:竹为结束语,同时指出今后的一r作方向 1数据挖掘与关联规则 数据挖掘是从大量数据中发现隐含的、事先未知的和潜在有用的信息或知】识的1F平凡过 程,关联规则的发现是数据挖掘的一个重要研究方向,具有广泛的应用领域.关联规则反映 的是不同对象问的一种统计关联关系.下面给出的是经典关联规则的形式化描述【31. 则表示r包含ZD中所有包含项集Ⅳ的事务数f、D中事务总数的百分比被称为项集Ⅳ的支 持因子S(uppor∥.在进行规则挖掘时,先麻给定一个支持阗子的最小门限值,称为最小支 持囡子minSUp.支持闪子不小丁mfB

文档评论(0)

1亿VIP精品文档

相关文档