- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基于lda的概率主题模型多文档自动规则
多文档自动排序是分析和表达与内容相关的多个文本的过程,其中文本的排序长度必须满足特定长度的要求。作为自然界处理和检索信息的最古老问题之一,随着移动设备和互联网的广泛应用和用户信息的增加,近年来自动排序再次出现。根据其目的,自动排序分为通用标记和基于搜索的标记。通用标记提取反映作者意图的整体文本,并以搜索相关的文本为延伸。根据摘要生成方法,自动排序分为提取标记和理解标记。提取值以计算当前短语的值,并直接提取当前短语作为短语。理解篇文章的意义,并通过分析文章的语法、意义和章节结构来获得文章的含义。然后通过自然生成获得所需的句子。提取文章的提取方法通常是不连续的,但提取文章的提取方法有助于人类的浏览和评价。此外,与自然生成相关的理解语篇的分类方法尚未得到很好的解决方法,因此提取的文章避免了章节分析和连续句子生成等问题。现在的研究大多采用了提取式编辑方法。
抽取式文摘中的主要问题是句子权重的计算问题.常用的句子权重计算方法有简单的基于词频的方法、基于主题聚类的方法、基于图的方法和基于语言分析的方法等.
以LDA(latentdirichletallocation)及其扩展为代表的主题模型广泛应用于文档、图像等信息的建模.近年来,开始有学者关注其在自动文摘方面的应用.本文基于LDA模型,以句子作为处理单元,根据LDA模型中主题的概率分布和句子的概率分布提出了2种句子权重计算模型.
1句子选择和句子选择
Chen等提出了一种结合句子生成概率和先验概率完成句子排序的广播新闻演讲文摘的抽取,其中句子的生成概率的方法来考察了句子主题混合模型(STMM)和词主题混合模型(WTMM)2种概念匹配形式,混合模型的参数则根据文档的标题由期望最大化(EM)算法训练得到.
Arora等同样使用LDA作为文档的表示模型,但其以文档作为LDA的处理单元,提出了基于推论的、半生成性和全生成性的3种句子选择形式.效果最好的是基于推论的方法,其中句子的概率为归一化后的词汇概率加和.在文献中,Arora等在使用LDA得到单词的权重后,将句子看作单词权重的向量.每个句子对应一个主题,主题则为所有属于该主题的句子的向量,最终将主题表示为单词的权重矩阵.然后使用SVD求解句子集的正交表示,作为选择文摘句的依据,从而降低文摘中信息的冗余度.Shafiei提出类似于3层生成模型LDA模型的4层模型Co-ClusteringModel,由于该模型表示为词、片段、主题、文档4层结构,若将片段选择为句子,则该方法可以为词、句子和文档建立统一的生成模型.研究者们将该模型应用于文摘中:
Haghighi等使用层次LDA主题模型的变种,将句子、文档和文档集合统一纳入到主题模型中,使用Gibbs抽样获得模型参数,同时考虑到文档集的综合主题和特定主题2个方面,并以KL-散度作为文摘评价模型选择句子,使用贪心算法添加句子.
Chang和Chien对文档和单个的句子分别执行LDA,然后通过计算句子语言模型和文档语言模型之间的KL-散度对句子进行排序.为了充分地表示词汇、句子和文档之间的关系,又提出了SLDA,为词汇、句子、主题和文档建立4层LDA模型,并使用变分推断估计参数,通过计算句子语言模型和文档语言模型之间的KL-散度对句子进行排序.
2城市文学材料上的概率分布
主题模型是一种生成性的概率模型,一般基于如下观点构建:文档是主题上的概率分布;而主题则是词汇上的概率分布.不同的主题模型做了不同的概率假设;由于主题在词上的概率分布是相关词项上的连贯聚类,因此单个的主题都是可解释的.
2.1基于diwell抽样的分布式检查
LDA模型是一种常用的主题模型,由Blei等人于2003年提出.它是一个生成性的3层贝叶斯网络,将词和文档通过潜在的主题相关联.类似于许多概率模型,LDA中也做了词袋(bagofwords)假设,即在模型中不考虑词汇的顺序而只考虑他们的出现次数.
LDA模型是一个描述如何基于潜在主题生成文档中词的概率抽样过程,其生成过程如下:
1)从Dirichlet先验β中为每个主题k抽取多项式分布?k,共抽取K个分布;
2)从Dirichlet先验α中为每个文档wm抽取多项式分布θm,共抽取M个分布;
3)对语料库中所有文档wm和文档中所有词汇wmn:
①从多项式变量θm中抽取主题zm;
②从多项式变量?z中抽取词wmn.
其中K为主题个数,M为文档个数.模型中的主要变量为主题—词分布“?”和文档—主题分布“θ”.由于直接使用EM算法估计?和θ会存在局部极值的问题,对于给定的观察词wn,利用Gibbs抽样取词汇在主题z上后验概率P(wn|z)的近似值.在Gibbs抽样中,先固定其他词的主题分配(z-n),然后估计当前词项wn赋各种主题
原创力文档


文档评论(0)