文本聚类分析若干问题的研究.pdfVIP

下载本文档

28
0
约12.92万字
约 116页
2017-09-17 发布于河南
举报
版权申诉

文本聚类分析若干问题的研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

摘要面对大规模的、高维的文本数据，如何建立有效的、可扩展的文本聚类算法是数据挖掘领域的研究热点。针对这些问题，本文对文本聚类分析所涉及的若干问题进行了较深入的研究，主要包括如下几个方面：提出了一种基于投影寻踪的文本聚类新算法，该方法利用遗传算法寻找最优投影方向，将文本特征空间投影到一维空间上，从而以直观的方式显示出数据的结构特征，实现文本聚类分析的可视化。针对文本特征向量维数高和k-means等方法需要预先确定聚类数的问题。提文本特征矩阵进行降维处理，再运用RPCL算法进行文本聚类，这些新方法不仅可以有效地降维，还可克服k-means等方法需要预先确定聚类数的困难。基于向量空间模型，提出了一种基于双词关联的文本特征选择新模型，这种模型在向量空间模型的基础上，增加了文本的双词关联信息，使得向量空间模型中所包含的文本特征信息更加丰富、更加准确，结合隐含语义分析方法降维后，不仅有效地降低了维数，还进一步减少噪声凸现文本的语义特征，从而提高文本挖掘的质量。基于文档标引图特征模型，提出了一种新的基于短语的相似度计算方法，并采用变换函数对文档相似度值进行调整以使其获得了更好的可区分特性，从而更加有利于文本的聚类分析、分类等处理。将基于后缀树的聚类方法用于中文文本聚类中，这种方法将文本看成是一些短语的集合，通过后缀表达文本的相似关系，实现文本聚类。这种方法可以解决多主题的文本聚类问题，并克服了k-means等硬聚类算法将文本严格划分类问题，实现文本的软聚类。关键词：文本挖掘；文本聚类；特征表示；特征降维：竞争学习 ABSTRACT themassivevolumeand dimensionaltext tobuildeffec— Facing high data，how tiveand for scalable text isoneofresearchdirectionsofdata algorithmclustering atabove basic of have text been mining．Aimingissues，someproblemsclustering studied as follows． substantially Anew basedtext is looks pursuitprojection clusteringalgorithm proposed．It forthe direction textfeature optimalprojection byusinggeneticalgorithm，projects vectorin dimensionalintoalowdimensionalstructurefeaturesof high space．The thetextsCallbeshown andtheresultsoftext canbevisu- intuitionisticly clustering alized． Aimatthe of and cluster