AcTc一种基于改进的蚁群算法的中文文本聚类算法.PDFVIP

AcTc一种基于改进的蚁群算法的中文文本聚类算法.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
<<信息技术    ACTC:一种基于改进的蚁群算法的中文文本聚类算法 刘泉凤 浙江水利水电专科学校 杭州310018 〔摘要〕在对标准蚁群算法分析研究基础上,结合中文文本数据的特点,对蚁群算法存在的缺点进行改进,提出一 种基于改进的蚁群算法的中文文本聚类方法———ACTC。算法中为每只蚂蚁增加两个记忆体,可以解决原算法中 的“未指派现象”;模拟信息素,从而使蚂蚁的移动更具目的性,加快聚类速度;引入“边界点”思想,从而不仅可以 消除“停滞现象”,而且能避免“噪声”或异常数据对聚类结果的负面影响;引入动态调整相似度阈值概念,从而使 聚类结果更具实际意义。实验证明,从熵值与纯度两个评价函数评价结果看,该算法的聚类效果较好,达到算法 改进的目的。 〔关键词〕文本聚类 聚类算法 中文信息处理 〔分类号〕TP391 ACTC:AChineseTextClusteringBasedonImprovedAntColonyAlgorithm LiuQuanfeng ZhejiangWaterConservancyandHyropowerCollege,Hangzhou310018 〔Abstract〕Basedonthestudyofstandardantclusteringalgorithm,withregardtoChinesetextdata’scharacteristic,thispaperputs forwardanewmethodofChinesetextclusteringthatimprovesthealgorithmicperformance:ACTC.Byaddingtwocachestoeveryant, simulatingtheinformationelement,introducing“boundarypoint”,andadjustingthethresholdofsimilaritydynamically,themethod hasavoided“thenoise”ortheunusualdata’sinfluenceontheclusters,andhasspeededuptheclusteringeffect.Experimentsshow thattheproposedalgorithmcannotonlyclusterChinesetextdata,butalsohasmoreclusteringeffectthanantclusteringalgorithmon these2evaluationindexentropyandpurity,thushasimprovedtheoriginalalgorithm. 〔Keywords〕textclustering clusteringalgorithm Chineseinformationprocessin 法,它是对自然界蚂蚁的寻径方式进行模拟而得出的 1 引 言 一种仿生算法,最早是由Deneubourg应用到聚类领域, 它是一种基于群体智能的聚类算法,它不仅不用事先   文本聚类是一种无指导的文本分类,它将一个文 设定聚类数,能实现自组织聚类,且由于算法中每只蚂 本集分成若干个簇,每个簇内文本的相似性较大,而簇 蚁的并行独立行为,使算法具有高效性与健壮性;另 间文本的相似性较小。由于该项技术的出现使计算机 外,由于蚂蚁在一个平面上实现聚类,因而对高维数据 处理大量的文本信息成为可能,从而达到协助人们更 的聚类增加了可视性。 好地对大规模文本进行理解,继而解决信息社

文档评论(0)

sunyangbill + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档