- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Classified Index: TP391.1 U.D.C.: 681.37
Dissertation for the Master Degree in Engineering
RESEARCH OF TEXT CLUSTERING BASED ON SELF-ORGANIZING MAPS
Candidate: Luo Kegang
Supervisor: Prof. Wang Xiaolong Associate Supervisor: Associate Prof. Liu Yuanchao Academic Degree Applied for: Master of Engineering
Specialty: Computer Science and Technology
Affiliation: School of Computer Science and Technology
Date of Defence: July, 2007
Degree-Conferring-Institution: Harbin Institute of Technology
哈尔滨工业大学工学硕士学位论文
哈尔滨工业大学工学硕士学位论文
摘 要
本文是在对几种比较经典的聚类算法对比分析的基础上,利用自组织映射 网络在拓扑保序和抗噪声能力等方面的优势,以自组织映射模型作为文本聚类 的主要框架,研究和探索借助自组织映射模型进行文本聚类的特点以及所面临 的主要问题和相应的解决方法,并通过实践探索文本聚类在搜索引擎上的应用。 本文的目的是研究具有良好自适应能力的聚类方法,以反映输入文本集合的主 题结构,并针对实际应用中出现的问题改进现有聚类算法。
本文通过重点分析 Kohonen SOM 网络的性能及其训练方法,有针对性的对 现有聚类算法进行改进,主要研究工作如下:
首先,针对文本聚类具有高维和语义相关的特点,本文实现了基于潜在语 义索引的动态 SOM 聚类算法,该方法通过潜在语义索引中的奇异值分解实现了 原文档-词矩阵的降维,经过动态 SOM 聚类,取得了比以前更优的聚类结果, 聚类速度也有所提高。该方法用统计的方法进行文本聚类,通过规则与统计相 结合的方法更好地实现了自然语言理解。
其次,本文提出了一种面向大规模文档集的增量梯度下降式动态 SOM 聚类 算法。该算法通过逐渐减少插入神经元的数目,有效解决了其他动态 SOM 聚类 算法(如 GHSOM)的神经元欠利用现象,因而聚类效果更优,并且聚类速度 明显提高。针对大规模文本聚类可能出现神经元过利用的问题,本文通过对过 利用神经元进一步分裂的办法对聚类结果后续调优,取得了良好的聚类效果。 再次,针对文档向量化后的文档-词矩阵都是稀疏矩阵的特点,本文提出一 种基于向量稀疏性的 SOM 聚类算法。该算法首先通过前向和后向两遍扫描所有 的文档向量,初始化多个神经元以及其特征词,并固定每个神经元非零维度为 常数,然后通过 SOM 网络进行训练,合并相似的神经元,并在必要时插入新的 神经元,直到训练结束。该方法比 GHSOM 取得了更好的聚类结果,聚类时间 明显减少。由于采用压缩方式存储,算法的空间复杂性也明显降低。该方法在 输入文本数据集越大的情况下,神经元以及文档所对应的向量越稀疏,算法性
能越优越。
最后,为了更好地将动态 SOM 聚类算法应用于实际,本文还对大规模文本
I -
聚类在搜索引擎上的应用作了简单的探讨和研究,期望能以此对聚类搜索及文 本聚类的应用有个更深入的认识。文中介绍了聚类搜索引擎的基本理论和一个 好的聚类搜索引擎的评价方法,设计并实现了一个简单的聚类搜索系统,通过 对索引结果先发现主题词再聚类的方法,有效地解决了聚类搜索中聚类类别描 述的问题,并使聚类速度较大幅度提高。
关键词 自组织映射;文本聚类;向量稀疏性;潜在语义索引;聚类搜索
II -
-
- PAGE IV -
Abstract
Basing on an analysis of some classical text clustering algorithms, in view of SOM’s many superiorities, such as topology preservation, noise toleration and etc, this paper utilizes SOM (Self-Organizing Maps) as the overall framework for text clustering, and explores the characteristics of text clustering based on SOM, the main problems
您可能关注的文档
- 基于自由现金流量的投资战略动态管理研究-财务管理专业论文.docx
- 基于自由现金流量的大股东“隧道挖掘”问题研究-会计学专业论文.docx
- 基于自由现金流量的企业价值估价研究-技术经济及管理专业论文.docx
- 基于自由电枢喷射系统的小型车辆增程式混合动力系统控制系统的研究-机械工程专业论文.docx
- 基于自由空间法的毫米波段生物材料复介电常数测量研究-环境工程专业论文.docx
- 基于自由现金流量的财务战略管理研究-工商管理专业论文.docx
- 基于自由现金流量的企业价值评估方法的改进及其应用-财务管理专业论文.docx
- 基于自相似业务源的EPON上行调度机制的研究-通信与信息系统专业论文.docx
- 基于自由贸易协定的中泰进口关税制度比较研究-企业管理专业论文.docx
- 基于自相似和压缩感知的多聚焦图像融合-计算机科学与技术专业论文.docx
- 基于自组织理论的P2P网络借贷系统的演化机制研究-技术经济及管理专业论文.docx
- 基于自组织理论的产业集群演化机理研究-企业管理专业论文.docx
- 基于自组织理论的供应链成员竞合关系研究-安全技术及工程专业论文.docx
- 基于自组织特征映射的实时入侵检测系统-计算机应用技术专业论文.docx
- 基于自组织理论的创新型高校边缘空间设计策略研究-风景园林专业论文.docx
- 基于自组织理论的工程咨询业项目管理模式演化研究-管理科学与工程专业论文.docx
- 基于自组织理论的我国社区体育的可持续发展机制研究-体育人文社会学专业论文.docx
- 基于自组织理论的网络舆情系统研究-传播学专业论文.docx
- 基于自组织理论的研发产业演化研究-区域经济学专业论文.docx
- 基于自组织神经网络的分簇成链协议研究-模式识别与智能系统专业论文.docx
文档评论(0)