基于划分与层次的文本聚类研究-计算机软件与理论专业论文.docxVIP

下载本文档

1
0
约5.49万字
约 55页
2019-02-26 发布于上海
举报
版权申诉

基于划分与层次的文本聚类研究-计算机软件与理论专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于划分与层次的文本聚类研究-计算机软件与理论专业论文

独创声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得（注：如没有其它需要特别声明的，本栏可空）或其它教育机构的学位或证书使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名：学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人授权学校可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。（保密的学位论文在解密后适用本授权书）学位论文作者签名：导师签字：签字日期：年月日签字日期：年月日山东师范大学硕士学位论文山东师范大学硕士学位论文目录摘要 I ABSTRACT III 第一章绪论 1 1.1 选题背景与研究意义 1 1.2 文本聚类的研究现状 3 1.3 研究中存在的问题 4 1.4 本文的主要研究工作 5 1.5 本文的内容安排 5 第二章文本聚类算法基础理论 7 2.1 聚类的定义 7 2.2 主要聚类算法分类 7 2.2.1 基于顺序的聚类算法 8 2.2.2 基于层次的聚类算法 9 2.2.3 基于函数最优化的聚类算法 11 2.2.4 其他的特殊聚类技术 13 2.3 文本数据集 13 HYPERLINK \l _TOC_250001 Reuters21578 数据集 14 HYPERLINK \l _TOC_250000 20_NewsGroup 数据集 14 WebKB 数据集 14 TDT 数据集 14 OHSUMED 数据集 14 2.4 本章小结 15 第三章文本聚类关键技术 16 3.1 分词 16 3.2 STEMMING 18 3.3 停用词处理 19 3.4 空间降维 19 3.5 文本表示方法 22 3.6 相似性度量 23 3.7 本章小结 24 第四章基于可变阈值的 K-MEANS 聚类器 25 K-MEANS 算法简介 25 VTK-MEANS 算法 28 4.3 VTK-MEANS 算法时间复杂度分析 29 4.4 实验结果与分析 30 4.5 本章小结 33 第五章引入信息增益的层次聚类器 34 5.1 CURE 算法 35 5.2 信息增益 36 5.3 IG-CURE 算法 37 5.4 实验结果与分析 37 5.5 本章小结 40 第六章总结与展望 41 6.1 本文主要创新和贡献 41 6.2 下一步工作 42 参考文献 43 攻读硕士学位期间发表的论文46 致谢 47 摘要目前以文本形式存在的有用信息越来越多，因此怎样快速并高效的聚类与分类这些大规模的文本信息变得越发重要。针对这一问题，文本的自动聚类和自动分类技术应运而生。文本聚类技术是将文本划分到不同的类别中去，是在结合了机器学习和统计方法的理论基础上的，已经得到了较为广泛的实际应用，并且已经能够较好的解决海量文本信息归类的问题。目前在文本聚类研究领域中，主要有文本的表示以及聚类器算法两个研究热点。针对于文本表示方面，文本数据经过预处理通常会获得具有较大稀疏性以及高维性的文本表示空间，并会导致文本聚类质量的下降和效率的降低。在聚类器的算法中，文本聚类器主要有 K-Means 算法、K-Medoids 算法、CURE 算法、BIRCH 算法、DBSCAN 算法等，如何将这些算法进行改良，使得它们更适合于提高文本聚类的质量和效率，也是现在研究的热点问题。本文首先在绪论部分对文本聚类的产生背景、基础理论和研究进展情况进行了简要介绍，随后详细介绍了在文本聚类技术中常用聚类算法的基本信息，主要包括有算法思想、种类以及它们的理论依据等，以及文本聚类算法的常用公认数据集以及文本聚类算法的结果评价标准，并详细介绍了文本聚类流程中所使用到的关键技术。其中本文在深入研究和分析文本聚类的研究现状以及目前针对文本聚类的研究中所彰显的问题的基础上，将研究重点放在了两个问题上：一是如何设法对文本聚类的算法进行优化，从而使文本聚类中的聚类器性能得到提升；二是通过充分的对比实验来对本文提出改进方法是否具有预期的有效性进行验证。本文开展完成了以下工作： (1) K-Means 算法作为最为常用的文本聚类算法之一，具有算法复杂度相对比较低，并且算法实现简单等优点，但它也有较明显的缺点：算法在聚类初始中心的选择上过于敏感，原始算法中所使用的随机选择初始聚类中心点的