- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘 要
面对大规模的、高维的文本数据,如何建立有效的、可扩展的文本聚类算
法是数据挖掘领域的研究热点。针对这些问题,本文对文本聚类分析所涉及的
若干问题进行了较深入的研究,主要包括如下几个方面:
提出了一种基于投影寻踪的文本聚类新算法,该方法利用遗传算法寻找最
优投影方向,将文本特征空间投影到一维空间上,从而以直观的方式显示出数
据的结构特征,实现文本聚类分析的可视化。
针对文本特征向量维数高和k-means等方法需要预先确定聚类数的问题。提
文本特征矩阵进行降维处理,再运用RPCL算法进行文本聚类,这些新方法不
仅可以有效地降维,还可克服k-means等方法需要预先确定聚类数的困难。
基于向量空间模型,提出了一种基于双词关联的文本特征选择新模型,这
种模型在向量空间模型的基础上,增加了文本的双词关联信息,使得向量空间
模型中所包含的文本特征信息更加丰富、更加准确,结合隐含语义分析方法降
维后,不仅有效地降低了维数,还进一步减少噪声凸现文本的语义特征,从而
提高文本挖掘的质量。
基于文档标引图特征模型,提出了一种新的基于短语的相似度计算方法,
并采用变换函数对文档相似度值进行调整以使其获得了更好的可区分特性,从
而更加有利于文本的聚类分析、分类等处理。
将基于后缀树的聚类方法用于中文文本聚类中,这种方法将文本看成是一
些短语的集合,通过后缀表达文本的相似关系,实现文本聚类。这种方法可以
解决多主题的文本聚类问题,并克服了k-means等硬聚类算法将文本严格划分类
问题,实现文本的软聚类。
关键词:文本挖掘;文本聚类;特征表示;特征降维:竞争学习
ABSTRACT
themassivevolumeand dimensionaltext tobuildeffec—
Facing high data,how
tiveand for
scalable text isoneofresearchdirectionsofdata
algorithmclustering
atabove basic of have
text been
mining.Aimingissues,someproblemsclustering
studied as
follows.
substantially
Anew basedtext is looks
pursuitprojection clusteringalgorithm
proposed.It
forthe direction textfeature
optimalprojection byusinggeneticalgorithm,projects
vectorin dimensionalintoalowdimensionalstructurefeaturesof
high space.The
thetextsCallbeshown andtheresultsoftext canbevisu-
intuitionisticly clustering
alized.
Aimatthe of and cluster
文档评论(0)