概率主题模型中英文翻译..doc 9页

  • 3
  • 0
  • 0
  • 2017-01-12 发布
文档工具:
    1. 1、本文档共9页,可阅读全部内容。
    2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
    3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
    4. 文档侵权举报电话:19940600175。
    概率主题模型中英文翻译.

    学号: 2015届生毕业论文 学院(系): 。。。。 专业 。。。。 学生姓名: 。。。。 指导教师指导教师完成日期 译文: 概率主题模型 原著:David M.Blei 随着集合性的知识越来越多的被进行数字化和存储为新闻,博客,网页,科学杂志,书籍,图片,声音和社会网络的形式,想要寻找和发现什么才是我们需要的变得越来越困难。我们需要计算工具来组织,寻找和理解这些非常大量的信息。 现在,我们主要用搜寻和链接这两种工具来处理在线信息,我们将关键词输入搜索引擎然后找到一系列与之相关的文档。然后我们查阅文档,然后再链接到其他的文档。这是一个和我们的在线档案相互交互的一种有力方式,但是这种方式会导致有些东西丢失掉。 假设通过主题来搜索和发现需要的文档,我们可以通关放大或者缩小的方式发现特定的或者广泛的主题,我们可以看到这些主题随着时间是如何改变的或者它们是如何相互连接的。而不是仅仅通过关键词来寻找文档,我们可以首先找到我们感兴趣的主题然后检测与主题相关的文档。 比如,假设我们用主题来探索纽约时报的整个历史。就一个广阔的层面来说,一些主题可能和报纸,国外政策,国家事务,体育这些部分有关。我们可以缩小感兴趣多的主题的范围,比如国外政策,显示它的各个方面,中国的对外政策,中东的冲突,美国和俄罗斯的关系。我们可以发现这些特定的主题是如何随着时间变化的,然后进行追踪,比如过去五十年中东的冲突的变化。在整个探索的过程中,我们可以指出和主题相关的原始文章。主题结构可以是一种用来发现和吸收文档的新窗口。 但是和电子文集的交互我们并不适用上面的方式。随着越来越多的文本可以在线获取,我们没有人力来阅读和学习它们来提供像上面描述的那种浏览体验。为了达到这个目的,机器学习研究人员发展了概率主题模型,这是一套目的是发现和给大量与话题信息有关的文档集进行注释的算法。话题模型算法是分析原始文本的词语来发现其中的主题的统计方法,这些主题是如何相互联系的,还有它们是如何随着时间变化的。(看,比如图三就是通关分析耶鲁的法律杂志得到的话题。)话题模型的算法不需要文档有任何注释或者标签,话题从原始文本中分析出来。话题模型可以帮助我们对那些人工不肯能完成的电子文集进行组织和进行。 潜在的狄利克雷分布 我们首先描述一下潜在的狄利克雷分布(LDA)的基本思想,这是一种最简单的话题模型。LDA背后的直觉是文档展示的都是许多话题,比如,图一中的文章。这篇文章,名字是《寻找生命的必需品(基因)》,这是一篇关于使用数据分析来决定一个有机体需要多少基因才能生存下来的文章。 我们已经将在文章中使用过的不同的词语进行了突出显示。有关数据分析的词,比如计算机还有预测等等被用蓝色进行标记;有关生物进化的词语,比如生命和有机体被用粉色进行了标记;有关基因的词语,比如序列化和基因被用黄色进行了标记。如果我们花时间将文章中的每一个词都用颜色进行了标记的话,你可以看到这篇文章是由遗传学,数据分析还有生物进化以不同的比例混合而成的(我们去除了和,但是,如果这种不含有话题内容的词)。此外,知道了这篇文章由不同的主题混合而成会帮助你将它定位到科学文章集中。 LDA是一个尝试获取这种直觉的文档集的概率模型。它最容易被生成过程所描述,模型假设文档由虚拟化的随机过程产生(LDA作为概率模型的预测稍后给出)。 我们现在正是将话题定义为一些固定的词汇的分布。比如遗传学这个主题有和遗传学有关的概率很高的词语,生物进化这个话题有和生物进化有关的出现概率很高的词语。我们假设这些话题是在任何数据生成前就定好的。现在对于文档集中的每一篇文档,每一个词我们用两步来生成。 随机选择一个话题的分布 对于文档中的每一个词语 a.从第一步的主题分布中随机选择一个主题。 B.随机从相关的词汇分布中选择一个词。 这个概率模型是对文档的多样化的话题进行展示的一个反映。每一个文档将主题展示为不同的比例(步骤1);文档中的每一个词从从其中的一个主题中选出(步骤2的b),选中的主题是从每个文档的主题分布中选出的(步骤2的a)。 在例子文章中,话题的分布就是遗传学,数据分析和生物进化的概率,每个词都是从这三个主题中来的。注意到文档集中的下一个文章可能是关于数据分析和神经科学的。它的主题分布就是这两个话题的概率。这是LDA的不同特性,所有的文档共享一套主题,但是每个文档的话题是以不同的概率展现出来的。就像我们在引言中描述的一样,话题模型的目标是自

    文档评论(0)

    • 内容提供方:jiulama
    • 审核时间:2017-01-12
    • 审核编号:7012135150000145

    相关文档

    相关课程推荐