一种文档聚类新方法.pdfVIP

下载本文档

4
0
约9.66千字
约 6页
2017-08-17 发布于安徽
举报

一种文档聚类新方法.pdf

Vol 苏35善专辑兰州大学学报(自然科学学版) 35Supp JournalofLanzhou Augl999 999年8月 University(NaturalSciences) 文章编。g-：0155—2059(1999)0334—06 一种文档聚类新方法周水庚，孙敬宇，胡运发 (复]九学计算机科学系，|=，行(田断、)数捌库研究中心一J二海200433) 摘要：本义扭川一种史档臻类新方法』}基本思想是利用数据挖掘，发现文档库中针对文档或词的关联埘则．然后利用超吲划分并泣对关联规则超闺进{亍划分．从咖实现文档聚类文中给{n了两种其似的实现算浊：一种是利用倒排文件进行文档关联规则挖掘；另～种则是基于文柏向量模型实现i可(纠f)关联捌则发现关键词：笑呋舭则：文档聚类，m量横!；!!．倒{{|：文件：超幽划分 0引言的对象分配到不同的粪(组)中，使得同一类中的对象尽可能相似，而不同类中的对象尽可 Retrieval)领域中．聚类分析瑚丁对文档进行分类，能相异‘1】．在信息检索([nformation 以改善信息检索的效率，或暂发现柴一领域文献的绸成结构¨] 目前主要的文档聚类方法有两类，即层次聚类法(Hierarchjcal Ciustering)．为膏部分，每一部分即是～个聚类典刷的划分算法从构造一个初始划分开始，然后使tLfj 一羊中递归控制策B}优化一个口标嘲数每个聚类或者用它的重心表示(k-means算法)，或者用最接近其重¨的目杯表示(k-medoid算法)．层次化算法对数据库口进行层次化分解．这种层次化分解ir州一棵树来表示．这株树递归地将数据库口分解为越来越小的数据集合，直到满足某一终Ir条件．层次化馋法不需要输入一个k值．就这方而{』|=，它比划分算法优越其不足之处是必须指定一个终Ir条什．就文档聚类来说，常J日的非层次聚类算法有单遍历法(Single averageLink)01等方法．这些算法 Lfnk)[”、全联(Coulplete】一ink)“和自l平均联(Group 的时间复杂度一般为0m’‘，，而空间需求大致为0御或口rⅣ≯(需要储存相似矩阵t,1)．近年来，随蔚数据挖掘研究的i；|{入年¨Internet的普及，对文本数据的挖掘也越来越引起人们的重视．数据挖{屈技术止怠来愈多地被』近州到传统的信息检索领域．本文工作即是这样的一种尝试往本文中，我们提“5了一种新的文档聚类方法．该方法首先利川数据挖掘算收稿日期：1999．03．16 基金项目：同家863计划(863-306．ZT04—02．2)资助项目作者简介：J刊水庚：1966-)．男．f啊1‘生专辑周水庚等：一种文档聚类新方法 335 体实现算法：～种是利用倒排文什进行文档关联规则挖掘；另一种则是基于文档向蟮模型实现词(组)关联规则发现．本文其它内容安排如下：第l 1，简单介绍数据挖捌和关联规则发现的基本概念和算法；第2节说明文档表达的两种基本模型：第3冉详细介绍基丁-关联规则挖掘的文档聚类方法；第4：竹为结束语，同时指出今后的一r作方向 1数据挖掘与关联规则数据挖掘是从大量数据中发现隐含的、事先未知的和潜在有用的信息或知】识的1F平凡过程，关联规则的发现是数据挖掘的一个重要研究方向，具有广泛的应用领域．关联规则反映的是不同对象问的一种统计关联关系．下面给出的是经典关联规则的形式化描述【31．则表示r包含ZD中所有包含项集Ⅳ的事务数f、D中事务总数的百分比被称为项集Ⅳ的支持因子S(uppor∥．在进行规则挖掘时，先麻给定一个支持阗子的最小门限值，称为最小支持囡子minSUp．支持闪子不小丁mfB

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

一种文档聚类新方法.pdfVIP