- 4
- 0
- 约9.66千字
- 约 6页
- 2017-08-17 发布于安徽
- 举报
Vol
苏35善专辑 兰州大学学报(自然科学学版) 35Supp
JournalofLanzhou Augl999
999年8月 University(NaturalSciences)
文章编。g-:0155—2059(1999)0334—06
一种文档聚类新方法
周水庚,孙敬宇,胡运发
(复]九学计算机科学系,|=,行(田断、)数捌库研究中心一J二海200433)
摘要:本义扭川一种史档臻类新方法』}基本思想是利用数据挖掘,发现文档库中针对文档
或词的关联埘则.然后利用超吲划分并泣对关联规则超闺进{亍划分.从咖实现文档聚类文中
给{n了两种其似的实现算浊:一种是利用倒排文件进行文档关联规则挖掘;另~种则是基于文
柏向量模型实现i可(纠f)关联捌则发现
关键词:笑呋舭则:文档聚类,m量横!;!!.倒{{|:文件:超幽划分
0引言
的对象分配到不同的粪(组)中,使得同一类中的对象尽可能相似,而不同类中的对象尽可
Retrieval)领域中.聚类分析瑚丁对文档进行分类,
能相异‘1】.在信息检索([nformation
以改善信息检索的效率,或暂发现柴一领域文献的绸成结构¨] 目前主要的文档聚类方法有
两类,即层次聚类法(Hierarchjcal
Ciustering).
为膏部分,每一部分即是~个聚类典刷的划分算法从构造一个初始划分开始,然后使tLfj
一羊中递归控制策B}优化一个口标嘲数每个聚类或者用它的重心表示(k-means算法),或
者用最接近其重¨的目杯表示(k-medoid算法).层次化算法对数据库口进行层次化分解.
这种层次化分解ir州一棵树来表示.这株树递归地将数据库口分解为越来越小的数据集合,
直到满足某一终Ir条件.层次化馋法不需要输入一个k值.就这方而{』|=,它比划分算法优
越其不足之处是必须指定一个终Ir条什.就文档聚类来说,常J日的非层次聚类算法有单遍
历法(Single
averageLink)01等方法.这些算法
Lfnk)[”、全联(Coulplete】一ink)“和自l平均联(Group
的时间复杂度一般为0m’‘,,而空间需求大致为0御或口rⅣ≯(需要储存相似矩阵t,1).
近年来,随蔚数据挖掘研究的i;|{入年¨Internet的普及,对文本数据的挖掘也越来越引
起人们的重视.数据挖{屈技术止怠来愈多地被』近州到传统的信息检索领域.本文工作即是这
样的一种尝试往本文中,我们提“5了一种新的文档聚类方法.该方法首先利川数据挖掘算
收稿日期:1999.03.16
基金项目:同家863计划(863-306.ZT04—02.2)资助项目
作者简介:J刊水庚:1966-).男.f啊1‘生
专辑 周水庚等:一种文档聚类新方法 335
体实现算法:~种是利用倒排文什进行文档关联规则挖掘;另一种则是基于文档向蟮模型实
现词(组)关联规则发现.
本文其它内容安排如下:第l 1,简单介绍数据挖捌和关联规则发现的基本概念和算法;
第2节说明文档表达的两种基本模型:第3冉详细介绍基丁-关联规则挖掘的文档聚类方法;
第4:竹为结束语,同时指出今后的一r作方向
1数据挖掘与关联规则
数据挖掘是从大量数据中发现隐含的、事先未知的和潜在有用的信息或知】识的1F平凡过
程,关联规则的发现是数据挖掘的一个重要研究方向,具有广泛的应用领域.关联规则反映
的是不同对象问的一种统计关联关系.下面给出的是经典关联规则的形式化描述【31.
则表示r包含ZD中所有包含项集Ⅳ的事务数f、D中事务总数的百分比被称为项集Ⅳ的支
持因子S(uppor∥.在进行规则挖掘时,先麻给定一个支持阗子的最小门限值,称为最小支
持囡子minSUp.支持闪子不小丁mfB
原创力文档

文档评论(0)