基于LDA与TextRank结合多自动摘要研究.docVIP

下载本文档

57
0
约4.48千字
约 9页
2018-08-28 发布于福建
举报
版权申诉

基于LDA与TextRank结合多自动摘要研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于LDA与TextRank结合多自动摘要研究

基于LDA与TextRank结合多自动摘要研究　　摘要：大数据时代信息量急剧增长，伴随而来的是大量冗余信息的出现。为快速、准确、全面搜索到所需信息，提出一种LDA主题模型与TextRank算法相结合的算法。首先通过对预处理后的文档建立主题模型，得到句子的概率模型即文档中句子的重要性，然后考虑运算节点权重时的主题概率，得到新的迭代公式，通过对同一主题下的多篇新闻报道进行处理得到这些文档的文摘。实验结果表明，该方法生成的文摘较单一算法效果显著。　　关键词：冗余；LDA主题模型；TextRank算法；文摘　　DOIDOI：10.11907/rjdk.172842 　　中图分类号：TP301 　　文献标识码：A 文章编号：1672-7800（2018）004-0013-03 　　Abstract：Information explosion leads to a large number of redundant information in the big data era. In this paper， we propose an algorithm to combine the LDA theme model with the TextRank algorithm. Firstly， we build a thematic model of the preprocessed document set to get the probability model of the sentence， that is， the sentence in the document. And then we take the subject probability into account and get the new iterative formula. The experimental results show that the method is more effective than the single algorithm. 　　Key Words：redundancy； LDA theme model； Textrank algorithm； summary 　　0 引言　　随着互联网上信息的日益丰富，人们从网络上搜索到的新闻大多呈现数量多且信息杂乱的现象，即使在文本理解会议（DUC），对大量数字语言质量问题和内容进行手动评估摘要，也需要3 000多小时的人力，非常耗时[1]。多文档自动文摘的主要任务就是将同一主题下多篇文档组成的集合中多次重复的信息一次出现在文摘中，将与主题相关的信息根据重要性及压缩比依次抽取[2-3]，因此进行文摘提取尤为重要。　　1 相关研究　　本文实验流程如图1所示。　　1.1 Textrank算法　　TextRank是基于网页算法PageRank而来的，只是将page替换成词语、句子，以完成关键词抽取与自动文摘工作[4]。TextRank算法是用于文本的基于图的排序经典算法，主要应用在关键词提取、自动文摘等领域。TextRank算法将文档划分为由若干文本单元（词项或句子）构成的节点，文本单元间的相似度构成节点间的边，形成图模型，利用PageRank算法对图模型进行迭代直至收敛，然后对所有节点进行排序，输出文摘句。TextRank算法作为一种无监督方法，无需训练语料，该方法已在多个领域得到应用。　　1.2 LDA主题模型　　LDA主题模型是目前比较流行的模型算法，LDA由Blei、David M、Ng、Andrew Y、Jordan等于2003年提出，是一种典型的词袋模型。一篇文档由一组词构成，词与词之间没有先后的顺序关系。另外，一篇文档可以包含多个主题，其中每一个词都由其中的一个主题生成。同时，它是一个3层的生成性贝叶斯网络，将词与文档通过潜在的主题相联系。LDA概率如图2所示。　　图2中，φ表示主题-词语的概率分布，θ表示文档-主题的概率分布，α和β分别表示θ和φ所服从的Dirichlet 先验分布的超参数，空心圆圈表示隐含变量――主题，实心圆圈表示可观察到的变量――词语。　　2 LDA与TextRank结合算法　　?钿斓?[5]提出的基于主题模型LDA的多文档自动摘要，张明慧[6]提出的LDA主题驱动的中文多文档自动文摘方法，根据LDA模型中主题的概率分布和句子的概率分布，得到句子权重计算模型。LDA模型所使用的词袋假设不能很好地考虑单词和句子的位置，以及句子、文档和文档集合之间的结构关系[7]。　　基于图排序算法的自动文摘方法[8-10]，主要思想是将文本单元（句子、词汇等）作为图的节点，该方法优点是可以结合图的全局信息进行判断和计算