基于划分与层次的文本聚类分析-计算机软件与理论专业论文.docxVIP

下载本文档

1
0
约5.45万字
约 53页
2019-02-26 发布于上海
举报
版权申诉

基于划分与层次的文本聚类分析-计算机软件与理论专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于划分与层次的文本聚类分析-计算机软件与理论专业论文

山东师范大学硕士学位论文山东师范大学硕士学位论文目录摘要 I ABSTRACT III 第一章绪论 1 1.1 选题背景与研究意义 1 1.2 文本聚类的研究现状 3 1.3 研究中存在的问题 4 1.4 本文的主要研究工作 5 1.5 本文的内容安排 5 第二章文本聚类算法基础理论 7 2.1 聚类的定义 7 2.2 主要聚类算法分类 7 2.2.1 基于顺序的聚类算法 8 2.2.2 基于层次的聚类算法 9 2.2.3 基于函数最优化的聚类算法 11 2.2.4 其他的特殊聚类技术 13 2.3 文本数据集 13 HYPERLINK \l _TOC_250001 Reuters21578 数据集 14 HYPERLINK \l _TOC_250000 20_NewsGroup 数据集 14 WebKB 数据集 14 TDT 数据集 14 OHSUMED 数据集 14 2.4 本章小结 15 第三章文本聚类关键技术 16 3.1 分词 16 3.2 STEMMING 18 3.3 停用词处理 19 3.4 空间降维 19 3.5 文本表示方法 22 3.6 相似性度量 23 3.7 本章小结 24 第四章基于可变阈值的 K-MEANS 聚类器 25 K-MEANS 算法简介 25 VTK-MEANS 算法 28 4.3 VTK-MEANS 算法时间复杂度分析 29 4.4 实验结果与分析 30 4.5 本章小结 33 第五章引入信息增益的层次聚类器 34 5.1 CURE 算法 35 5.2 信息增益 36 5.3 IG-CURE 算法 37 5.4 实验结果与分析 37 5.5 本章小结 40 第六章总结与展望 41 6.1 本文主要创新和贡献 41 6.2 下一步工作 42 参考文献 43 攻读硕士学位期间发表的论文46 致谢 47 摘要目前以文本形式存在的有用信息越来越多，因此怎样快速并高效的聚类与分类这些大规模的文本信息变得越发重要。针对这一问题，文本的自动聚类和自动分类技术应运而生。文本聚类技术是将文本划分到不同的类别中去，是在结合了机器学习和统计方法的理论基础上的，已经得到了较为广泛的实际应用，并且已经能够较好的解决海量文本信息归类的问题。目前在文本聚类研究领域中，主要有文本的表示以及聚类器算法两个研究热点。针对于文本表示方面，文本数据经过预处理通常会获得具有较大稀疏性以及高维性的文本表示空间，并会导致文本聚类质量的下降和效率的降低。在聚类器的算法中，文本聚类器主要有 K-Means 算法、K-Medoids 算法、CURE 算法、BIRCH 算法、DBSCAN 算法等，如何将这些算法进行改良，使得它们更适合于提高文本聚类的质量和效率，也是现在研究的热点问题。本文首先在绪论部分对文本聚类的产生背景、基础理论和研究进展情况进行了简要介绍，随后详细介绍了在文本聚类技术中常用聚类算法的基本信息，主要包括有算法思想、种类以及它们的理论依据等，以及文本聚类算法的常用公认数据集以及文本聚类算法的结果评价标准，并详细介绍了文本聚类流程中所使用到的关键技术。其中本文在深入研究和分析文本聚类的研究现状以及目前针对文本聚类的研究中所彰显的问题的基础上，将研究重点放在了两个问题上：一是如何设法对文本聚类的算法进行优化，从而使文本聚类中的聚类器性能得到提升；二是通过充分的对比实验来对本文提出改进方法是否具有预期的有效性进行验证。本文开展完成了以下工作： (1) K-Means 算法作为最为常用的文本聚类算法之一，具有算法复杂度相对比较低，并且算法实现简单等优点，但它也有较明显的缺点：算法在聚类初始中心的选择上过于敏感，原始算法中所使用的随机选择初始聚类中心点的方法，会导致聚类器性能不稳定，针对于 K-Means 算法的这个缺点，本文提出了基于可变阈值的 K-Means 聚类初始中心选择方法，在选择初始聚类中心点时，会依次选择距离已有初始中心点的距离大于一个不定阈值的样例作为下一个新的初始聚类中心点，并根据满足条件的初始聚类中心点的个数对该不定阈值进行适当调整，直至获得满足条件的阈值以及初始聚类中心点，再进行聚类操作。在 10 个 UCI 数据集和 4 个文本数据集上的实验结果显示，该算法性能明显优于原 K-Means 算法。 (2) 层次聚类分析作为数据挖掘和模式识别领域中非常重要的研究课题之一，同样具有非常广阔的应用前景。受启发于决策树学习中对最佳分类属性的选择，本文提出了一种新的引入信息增益的层次聚类算法，该算法通过引入的信息增益方法对样例的的属性进行加权操作，进而对原始层次聚类算法进行指导，由此来提高聚类结果的质量。在 10 个 U