概率主题模型中英文翻译..docVIP

下载本文档

3
0
约 9页
2017-01-12 发布于重庆
举报
版权申诉

概率主题模型中英文翻译..doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

概率主题模型中英文翻译.

学号： 2015届生毕业论文学院（系）：。。。。专业。。。。学生姓名：。。。。指导教师指导教师完成日期译文：概率主题模型原著：David M.Blei 随着集合性的知识越来越多的被进行数字化和存储为新闻，博客，网页，科学杂志，书籍，图片，声音和社会网络的形式，想要寻找和发现什么才是我们需要的变得越来越困难。我们需要计算工具来组织，寻找和理解这些非常大量的信息。现在，我们主要用搜寻和链接这两种工具来处理在线信息，我们将关键词输入搜索引擎然后找到一系列与之相关的文档。然后我们查阅文档，然后再链接到其他的文档。这是一个和我们的在线档案相互交互的一种有力方式，但是这种方式会导致有些东西丢失掉。假设通过主题来搜索和发现需要的文档，我们可以通关放大或者缩小的方式发现特定的或者广泛的主题，我们可以看到这些主题随着时间是如何改变的或者它们是如何相互连接的。而不是仅仅通过关键词来寻找文档，我们可以首先找到我们感兴趣的主题然后检测与主题相关的文档。比如，假设我们用主题来探索纽约时报的整个历史。就一个广阔的层面来说，一些主题可能和报纸，国外政策，国家事务，体育这些部分有关。我们可以缩小感兴趣多的主题的范围，比如国外政策，显示它的各个方面，中国的对外政策，中东的冲突，美国和俄罗斯的关系。我们可以发现这些特定的主题是如何随着时间变化的，然后进行追踪，比如过去五十年中东的冲突的变化。在整个探索的过程中，我们可以指出和主题相关的原始文章。主题结构可以是一种用来发现和吸收文档的新窗口。但是和电子文集的交互我们并不适用上面的方式。随着越来越多的文本可以在线获取，我们没有人力来阅读和学习它们来提供像上面描述的那种浏览体验。为了达到这个目的，机器学习研究人员发展了概率主题模型，这是一套目的是发现和给大量与话题信息有关的文档集进行注释的算法。话题模型算法是分析原始文本的词语来发现其中的主题的统计方法，这些主题是如何相互联系的，还有它们是如何随着时间变化的。（看，比如图三就是通关分析耶鲁的法律杂志得到的话题。）话题模型的算法不需要文档有任何注释或者标签，话题从原始文本中分析出来。话题模型可以帮助我们对那些人工不肯能完成的电子文集进行组织和进行。潜在的狄利克雷分布我们首先描述一下潜在的狄利克雷分布（LDA）的基本思想，这是一种最简单的话题模型。LDA背后的直觉是文档展示的都是许多话题，比如，图一中的文章。这篇文章，名字是《寻找生命的必需品（基因）》，这是一篇关于使用数据分析来决定一个有机体需要多少基因才能生存下来的文章。我们已经将在文章中使用过的不同的词语进行了突出显示。有关数据分析的词，比如计算机还有预测等等被用蓝色进行标记；有关生物进化的词语，比如生命和有机体被用粉色进行了标记；有关基因的词语，比如序列化和基因被用黄色进行了标记。如果我们花时间将文章中的每一个词都用颜色进行了标记的话，你可以看到这篇文章是由遗传学，数据分析还有生物进化以不同的比例混合而成的（我们去除了和，但是，如果这种不含有话题内容的词）。此外，知道了这篇文章由不同的主题混合而成会帮助你将它定位到科学文章集中。 LDA是一个尝试获取这种直觉的文档集的概率模型。它最容易被生成过程所描述，模型假设文档由虚拟化的随机过程产生（LDA作为概率模型的预测稍后给出）。我们现在正是将话题定义为一些固定的词汇的分布。比如遗传学这个主题有和遗传学有关的概率很高的词语，生物进化这个话题有和生物进化有关的出现概率很高的词语。我们假设这些话题是在任何数据生成前就定好的。现在对于文档集中的每一篇文档，每一个词我们用两步来生成。随机选择一个话题的分布对于文档中的每一个词语 a.从第一步的主题分布中随机选择一个主题。 B.随机从相关的词汇分布中选择一个词。这个概率模型是对文档的多样化的话题进行展示的一个反映。每一个文档将主题展示为不同的比例（步骤1）；文档中的每一个词从从其中的一个主题中选出（步骤2的b），选中的主题是从每个文档的主题分布中选出的（步骤2的a）。在例子文章中，话题的分布就是遗传学，数据分析和生物进化的概率，每个词都是从这三个主题中来的。注意到文档集中的下一个文章可能是关于数据分析和神经科学的。它的主题分布就是这两个话题的概率。这是LDA的不同特性，所有的文档共享一套主题，但是每个文档的话题是以不同的概率展现出来的。就像我们在引言中描述的一样，话题模型的目标是自