- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于遗传算法的动态文本聚类 - 江西师范大学智能信息处理实验室
维普资讯
第 30卷第 3期 江西师范大学学报 (自然科学版) V01.30No.3
2006年 5月 JOURNALOFJIANGXINORMALUNIVERSITY(NATURALSCIENCE) Mag2OO6
文章编号:1000—5862(2006)03—0278—04
基于遗传算法的动态文本聚类
乐 兵 , 王明文
(江西师范大学 计算机信息工程学院,江西 南昌 330027)
摘要:为了解决动态文本聚类中聚类中心陷于局部极值点的问题,该文提出了基于遗传算法的动态文本
聚类方法 .采用二进制编码方式对聚类中心进行编码、类内中的点与其类中心的欧氏距离作为适应度函
数.通过遗传算子的操作对类中心进行逐步迭代,直至适应度函数收敛 ,得到使聚类划分效果最好的聚类
中心.实验表明该方法可以克服局部极值点的问题,且聚类结果的评价指标 Purity(纯度)也比较好 .
关键词:文本聚类;遗传算法;二进制编码;欧氏距离;纯度
中图分类号:O235 文献标识码 :A
遗传算法 (GeneticAlgorithm,简记为GA)_1之j是一种借鉴生物界自然选择和进化机制发展起来的高度并
行、随机、自适应搜索算法,被广泛用于求解复杂的优化问题.它模仿生物界 “适者生存”原理,根据适应度的
大小,从初始种群中选择若干个较好的个体参与交叉和变异操作.选择 、交叉和变异操作迭代执行若干次或
执行到满足特定的终止规则,最后得到的种群中适应度最高的个体即为优化问题的近似最优解 .由于思想
简单、易于实现以及很好的健壮性,遗传算法赢得了许多应用领域.
聚类分析[3-9]是一种典型的组合优化问题 ,近几年得到广泛研究,并提出许多算法 .常用算法与参数设
置是否得当密切相关,往往需要对样本数据的物理意义进行必要的分析 .在数据量较大,特别是在高维情况
下,设置合理的参数尤为困难,只能通过多次实验比较来选定.另一方面,聚类的初始数据集和 目标函数都
是离散量,存在许多局部极值点,而通常的方法又没有判别劣值的机制,因此初始聚类中心和样本输入的次
序对最终结果有着很大的影响.
基于以上分析,本文利用遗传算法理论上能够较好地解决对初始解敏感、易陷于局部最优的缺点,能在
全局进行搜索的优点,把它用于文本聚类.本文算法在现实文档数据集上的实验结果与文献[4]中的相关算
法的实验结果相 比较,表明本文算法取得 了较好的效果.
1 相关知识
1.1 GA简介 遗传算法的运行过程是一个典型的迭代过程,必须完成的工作 内容和基本步骤有:(1)选择
编码策略,把参数集合 和域分别转换为位串结构的空间S;(2)计算适应度函数.厂(X);(3)确定遗传策略,
包括选择群体大小,选择、交叉、变异方法,以及确定交叉概率、变异概率等遗传参数;(4)随机初始化生产群
体 P;(5)计算群体中个体位串解码后的适应值;(6)按照遗传策略,运用选择、交叉和变异算子作用于群体,
形成下一代群体;(7)判断群体性能是否满足某一指标,或者达到预定迭代次数,满足则结束算法,不满足则
返回(6)或者更换遗传策略返回 (6).
1.2 文本聚类 对文本进行聚类,首先要解决的问题是如何表示文本信息.文本表示有多种模型,如向量
模型和布尔模型,本文采用向量模型(n) .其中每行表示为一篇文档,每列表示为一个词.本文的n为第
. 个词在第 i篇文档中出现的z£c权重.为了将样本 (或指标)进行分类,就需要研究样本(或指标)之间的关
收稿 日期:2005.09.12
基金项 目:江西省 自然科学基金 (0311401)和教育部重点科技资助项 目(03070).
作者简介:乐 兵 (1978.),男,江西泰和人 ,硕士研究生,主要从事信息检索和数据挖掘等研究
维普资讯
第3期 乐 兵,等:基于遗传算法的动态文本聚类 279
文档评论(0)