正则化潜在语义索引一种新型大规模话题建模方法.docVIP

  • 0
  • 0
  • 约4.71千字
  • 约 2页
  • 2019-07-03 发布于天津
  • 举报

正则化潜在语义索引一种新型大规模话题建模方法.doc

PAGE 1 作者简介及博士学位论文中英文摘要 论文题目:正则化潜在语义索引:一种新型大规模话题建模方法 作者简介:王泉,女,1985年10月出生,2008年9月师从于北京大学李航教授,于2013年7月获博士学位。 中 文 摘 要 话题建模旨在于挖掘出文本资料中的潜在话题,并利用这些话题对文本进行表示。作为一种更深层次的文本理解方法和更富有表现力的文本表示方式,话题建模在文本分类、文本聚类、信息检索等文本挖掘任务中得到了广泛的应用。然而,随着文本数据规模的飞速攀升,传统话题建模方法计算复杂度高、内存消耗大这一缺陷已成为制约它们在实际问题中发挥作用的瓶颈。对传统话题建模方法进行并行或分布式处理成为了一个热门的研究方向。但是现有的并行或分布式话题建模方法并不能从根本上解决话题建模过程中内存消耗过大这一问题,在应用于实际大规模问题时往往需要借助一些过于严厉的预处理手段,例如极大程度缩减文档集合所对应的词表规模。如何在大规模数据上有效并且高效地实现话题建模仍然是当前话题建模方法研究中亟待解决的问题,同时也是最大的挑战。 本文研究大规模文本数据上的话题建模方法。具体地,本文提出了三个完全可分的大规模话题建模方法,包括正则化潜在语义索引(RLSI)、在线正则化潜在语义索引(Online RLSI)和分组正则化潜在语义索引(Group RLSI)。 RLSI以矩阵分解作为话题建模方法主

文档评论(0)

1亿VIP精品文档

相关文档