基于自组织映射的文本聚类研究-计算机科学与技术专业论文.docxVIP

基于自组织映射的文本聚类研究-计算机科学与技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Classified Index: TP391.1 U.D.C.: 681.37 Dissertation for the Master Degree in Engineering RESEARCH OF TEXT CLUSTERING BASED ON SELF-ORGANIZING MAPS Candidate: Luo Kegang Supervisor: Prof. Wang Xiaolong Associate Supervisor: Associate Prof. Liu Yuanchao Academic Degree Applied for: Master of Engineering Specialty: Computer Science and Technology Affiliation: School of Computer Science and Technology Date of Defence: July, 2007 Degree-Conferring-Institution: Harbin Institute of Technology 哈尔滨工业大学工学硕士学位论文 哈尔滨工业大学工学硕士学位论文 摘 要 本文是在对几种比较经典的聚类算法对比分析的基础上,利用自组织映射 网络在拓扑保序和抗噪声能力等方面的优势,以自组织映射模型作为文本聚类 的主要框架,研究和探索借助自组织映射模型进行文本聚类的特点以及所面临 的主要问题和相应的解决方法,并通过实践探索文本聚类在搜索引擎上的应用。 本文的目的是研究具有良好自适应能力的聚类方法,以反映输入文本集合的主 题结构,并针对实际应用中出现的问题改进现有聚类算法。 本文通过重点分析 Kohonen SOM 网络的性能及其训练方法,有针对性的对 现有聚类算法进行改进,主要研究工作如下: 首先,针对文本聚类具有高维和语义相关的特点,本文实现了基于潜在语 义索引的动态 SOM 聚类算法,该方法通过潜在语义索引中的奇异值分解实现了 原文档-词矩阵的降维,经过动态 SOM 聚类,取得了比以前更优的聚类结果, 聚类速度也有所提高。该方法用统计的方法进行文本聚类,通过规则与统计相 结合的方法更好地实现了自然语言理解。 其次,本文提出了一种面向大规模文档集的增量梯度下降式动态 SOM 聚类 算法。该算法通过逐渐减少插入神经元的数目,有效解决了其他动态 SOM 聚类 算法(如 GHSOM)的神经元欠利用现象,因而聚类效果更优,并且聚类速度 明显提高。针对大规模文本聚类可能出现神经元过利用的问题,本文通过对过 利用神经元进一步分裂的办法对聚类结果后续调优,取得了良好的聚类效果。 再次,针对文档向量化后的文档-词矩阵都是稀疏矩阵的特点,本文提出一 种基于向量稀疏性的 SOM 聚类算法。该算法首先通过前向和后向两遍扫描所有 的文档向量,初始化多个神经元以及其特征词,并固定每个神经元非零维度为 常数,然后通过 SOM 网络进行训练,合并相似的神经元,并在必要时插入新的 神经元,直到训练结束。该方法比 GHSOM 取得了更好的聚类结果,聚类时间 明显减少。由于采用压缩方式存储,算法的空间复杂性也明显降低。该方法在 输入文本数据集越大的情况下,神经元以及文档所对应的向量越稀疏,算法性 能越优越。 最后,为了更好地将动态 SOM 聚类算法应用于实际,本文还对大规模文本 I - 聚类在搜索引擎上的应用作了简单的探讨和研究,期望能以此对聚类搜索及文 本聚类的应用有个更深入的认识。文中介绍了聚类搜索引擎的基本理论和一个 好的聚类搜索引擎的评价方法,设计并实现了一个简单的聚类搜索系统,通过 对索引结果先发现主题词再聚类的方法,有效地解决了聚类搜索中聚类类别描 述的问题,并使聚类速度较大幅度提高。 关键词 自组织映射;文本聚类;向量稀疏性;潜在语义索引;聚类搜索 II - - - PAGE IV - Abstract Basing on an analysis of some classical text clustering algorithms, in view of SOM’s many superiorities, such as topology preservation, noise toleration and etc, this paper utilizes SOM (Self-Organizing Maps) as the overall framework for text clustering, and explores the characteristics of text clustering based on SOM, the main problems

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档