基于SOM的文本聚类模型研究-软件工程专业论文.docxVIP

基于SOM的文本聚类模型研究-软件工程专业论文.docx

  1. 1、本文档共64页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于SOM的文本聚类模型研究-软件工程专业论文

独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他 个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集 体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 日期: 年 月 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有 权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和 借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 本论文属于 保密□, 在 年解密后适用本授权书。 不保密□。 (请在以上方框内打“√”) 学位论文作者签名: 指导教师签名: 日期: 年 月 日 日期: 年 月 日 摘 要 随着信息科技的日益发展,人们所能得到的信息在飞速增长。为了使各种资源 能够及时的被用户发掘,搜索引擎已经成为了人们日常生活中必不可少的工具。虽 然目前主流的文字搜索引擎都是基于内容的检索,但在实际实施时,它们往往没有 从语义的层面处理文本信息。所以,搜索引擎在针对某个查询返回的结果中往往包 含了许多并非用户真正需要的信息。基于这种考虑,对搜索引擎返回的结果进行再 次分析,挖掘出返回结果中包含的各种主题信息,将会大大的提升用户体验。 自组织映射(Self-Organizing Map,SOM)属于人工神经网络的范畴。它不仅能 够准确、高效对文本信息进行聚类,而且可以将高维的文本信息映射到用户可直观 理解的低维空间中。通过一定的学习规则,SOM 网络能够发掘文本集合中潜在的模 式,并将这些模式展现在训练稳定的神经元中。对于原始空间中相似的文本,将被 映射到邻近的神经元上。对于相异的文本,则被映射到疏远的神经元上。从而保持 了文本集合在原始空间中的拓扑结构。但原有的 SOM 模型中没有考虑文本集合中语 义层面的相似性。因此,在原始的 SOM 模型中引入狄利克雷分布(Latent Dirichlet Allocation,LDA)模型。LDA 模型是一个典型的三层贝叶斯模型,能够完整的描述 文档集合的生成过程。通过 LDA 模型,能够得到文档在给定数目主题上的分布和主 题在文档集合的词汇表上的分布。将 LDA 模型得到的主题作为输入空间的维度,训 练 SOM 神经元的连接权向量。最后,当网络稳定后,即可得到基于语义层面的文档 集合的聚类效果。此时,各个神经元的连接权向量即为在各个主题上的分布。找到 权重最大的主题,即可作为该神经元的主题。 关键词:SOM 神经网络 潜在狄利克雷分布 文本聚类 主题模型 Abstract People nowadays can have more access to all kinds of information than ever before due to the rapid development of information technology. Search engine has become an extremely important tool in daily life as people have to find out what they need from such a huge amount of resources. Although they are helpful and powerful, search engines today only focus on content analysis without deep understanding of semantic information, this limits the ability of search engines so that they may return lots of useless data. One possible solution to improve the performance will be re-analysis the feedback of search engine to find out the latent topic information. Self-Organizing map (SOM) is one kind of artificial neuron network, it can cluster documents accurately and effectively, and visualize the results in a low-dimensio

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档