正则化潜在语义索引一种新型大规模话题建模方法.DOCVIP

下载本文档

2
0
约4.71千字
约 2页
2019-07-04 发布于天津
举报
版权申诉

正则化潜在语义索引一种新型大规模话题建模方法.DOC

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

作者简介及博士学位论文中英文摘要论文题目正则化潜在语义索引一种新型大规模话题建模方法作者简介王泉女年月出生年月师从于北京大学李航教授于年月获博士学位中文摘要话题建模旨在于挖掘出文本资料中的潜在话题并利用这些话题对文本进行表示作为一种更深层次的文本理解方法和更富有表现力的文本表示方式话题建模在文本分类文本聚类信息检索等文本挖掘任务中得到了广泛的应用然而随着文本数据规模的飞速攀升传统话题建模方法计算复杂度高内存消耗大这一缺陷已成为制约它们在实际问题中发挥作用的瓶颈对传统话题建模方法进行并行或分布式处

PAGE \* MERGEFORMAT1 作者简介及博士学位论文中英文摘要论文题目：正则化潜在语义索引：一种新型大规模话题建模方法作者简介：王泉，女，1985年10月出生，2008年9月师从于北京大学李航教授，于2013年7月获博士学位。中文摘要话题建模旨在于挖掘出文本资料中的潜在话题，并利用这些话题对文本进行表示。作为一种更深层次的文本理解方法和更富有表现力的文本表示方式，话题建模在文本分类、文本聚类、信息检索等文本挖掘任务中得到了广泛的应用。然而，随着文本数据规模的飞速攀升，传统话题建模方法计算复杂度高、内存消耗大这一缺陷已成为制约它们在实际问题中发挥作用的瓶颈。对传统话题建模方法进行并行或分布式处理成为了一个热门的研究方向。但是现有的并行或分布式话题建模方法并不能从根本上解决话题建模过程中内存消耗过大这一问题，在应用于实际大规模问题时往往需要借助一些过于严厉的预处理手段，例如极大程度缩减文档集合所对应的词表规模。如何在大规模数据上有效并且高效地实现话题建模仍然是当前话题建模方法研究中亟待解决的问题，同时也是最大的挑战。本文研究大规模文本数据上的话题建模方法。具体地，本文提出了三个完全可分的大规模话题建模方法，包括正则化潜在语义索引（RLSI）、在线正则化潜在语义索引（Online RLSI）和分组正则化潜在语义索引（Group RLSI）。 RLSI以矩阵分解作为话题建模方法主体，同时加上特定正则化因子以满足不同建模需求并控制模型复杂度。RLSI的优点在于它以矩阵分解作为模型主体，从而自然地继承了矩阵分解方法完全可分、高度易并行的特性，极易实现并行或分布式处理。实验表明，RLSI的话题建模效果与现有话题建模方法相当，但是经过简单的分布式处理之后，RLSI能够比现有分布式话题建模方法更加高效地处理更大规模的数据，真正意义上实现大规模数据上的话题建模。 Online RLSI是RLSI的在线学习拓展，其核心思想是按照时间顺序对文本进行分批处理。在线学习使得在整个处理过程中只有少部分数据需要载入内存进行运算与分析，从而达到进一步降低RLSI内存消耗的目的。同时，在线学习能够敏感地捕捉文本内容随着时间的变化情况，提取出的话题也具有相应的动态特征。实验表明，在内存有限的情况下，Online RLSI能够比RLSI扩展到更大规模的数据。同时Online RLSI能够敏感地捕捉到话题随着时间的变化情况，有效实现动态话题建模。 Group RLSI是RLSI的又一拓展，其核心思想是利用文本既有的类标签信息对文本进行分组，组与组之间尽量独立进行处理。这种分组处理方式可以将原始RLSI中的大规模问题拆解成一系列小规模问题独立求解，从而达到进一步提升RLSI计算效率的目的。同时，分组处理使得提取出的话题粒度更小，能够更加细致地反映文本的局部特征。实验表明，在同等数据规模下，Group RLSI的计算效率远高于RLSI，并且随着话题总数的增加，这种优势越发明显。同时，Group RLSI提取出的话题能够更加细致地刻画文本的局部特征，是一种更加准确的话题建模方法。关键词：话题建模；矩阵分解；并行/分布式处理 Regularized Latent Semantic Indexing: A New Approach to Large-Scale Topic Modeling WANG Quan ABSTRACT Topic modeling aims to automatically discover the latent topics in a document collection as well as represent the documents with the discovered topics. It provides a powerful way to better understand as well as better represent the content of documents. Nowadays, it has become a popular tool in various text mining tasks, such as text classification, text clustering, and information retrieval. In real-world applications, however, the usefulness of topic modeling is limited due to scalability issue. Scaling to larger document collections via parallel or dis