- 厦门大学智能数据分析与处理实验室.ppt

- 厦门大学智能数据分析与处理实验室.ppt

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
- 厦门大学智能数据分析与处理实验室

Topic models 王薇 Topic models 如果时间回到2006年,马云和杨致远的手还会握在一起吗? 阿里巴巴集团和雅虎就股权回购一事签署了最终协议。 主题模型在机器学习和自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。 Topic models 主题模型主要解决的问题就是怎么样生成主题,基本可以认为:一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到的。 矩阵形式: Topic models 数据来源于Web of Science 核心合集收录的文献,关键字为topic models 每年出版的文献数 每年的引文数 Topic models 数据来源于Engineering Village(Ei)核心合集收录的文献,关键字为topic models 每年出版的文献数 Topic models Latent Dirichlet Allocation Development CTM DTM ATM Classical Topic models LDA的作者是David M. Blei、 Andrew Y. Ng、 Michael I. Jordan,短篇版本首先发表在2001年的NIPS会议上,完整版本发表在2003年的Journal of Machine Learning Research,到12月5日被引用10007次 Latent Dirichlet Allocation Citation Latent Dirichlet Allocation 1.随机产生一个主题直方图(或者说分布); 2.对文档中的每个词: (a) 从第一步产生的直方图里随机选择一个主题; (b) 从主题对应的词语的概率分布中随机选择一个词。 Latent Dirichlet Allocation   是一个狄利克雷分布的参数,是一个列向量, 用来存放特定的单词 在特定主题 中的概率,是一个VxK矩阵。(V表示单词的种类数,K表示主题的种类数) Latent Dirichlet Allocation LDA的联合概率密度函数为: 主题模型的应用 从知网的数据可以看出,十年内有关主题模型的共有两百余篇硕博论文,17篇来自北京邮电大学、16篇来自上海交通大学、16篇来自浙江大学、14篇来自哈尔滨工业大学、9篇来自电子科技大学、9篇来自中国科学技术大学、9篇来自西安电子科技大学。而这些高校的论文占了大多数。 主题模型的应用 文章一:基于主题模型的学术论文推荐系统研究[21](大连海事2013年硕士论文) 应用点:学术论文推荐系统。文中利用了两种算法,LDA和CTM,直接利用LDA和CTM的算法设计了学术论文推荐的方法,并引入了一个新的评估方法叫做惊喜度,惊喜度指的是发现那些用户并不了解却确实需要的物品的能力。 数据集:NIPS英文论文,2004年到2011年共1936篇 总结:整篇论文基本没有很大的创新,直接把LDA和CTM拿来处理NIPS的英文论文集,然后找到具有相似文档-主题分布的论文,并将其看为是某篇论文相似的学术论文加以推荐;引入了惊喜度的概念,但惊喜度也是在2008年由Leo丨aquima等人提出的。 可借鉴:文章用的是英文数据,我们可以尝试对中文论文集进行处理并进行学术论文推荐,因为学术论文推荐这一个应用点还是很有意义的。 文章二:基于主题模型的个性化新闻推荐系统的研究与实现[22](北邮2013年硕士论文) 应用点:基于内容和主题特征的新闻推荐方案。 新闻模型:推荐方案将新闻表示为一个三维的模型,包括主题特征向量、关键词权值和新闻时间, 数据集:文中并没有提到,不过利用的是FudanNLP进行的处理。 总结:这篇论文其实主要不是进行算法的讨论而是成功做出了一个真正的应用,自行是设计了整个推荐系统,包括前端显示和后台数据库, 可借鉴:之前我也利用过搜狐新闻数据跑过LDA的程序,得到了topic也得到了文档-主题的分布,也可以进行后续的新闻分类或新闻推荐。 文章三:基于主题模型的舆情分析子系统研究与设计 [23](电子科大2013年硕士论文) 应用点:1.提出了一种基于主题特征和SVM的细粒度文本分类方法;文中使用不同的分类器进行实验,并得出SVM的分类效果比较好的结论。2.提出基于LDA关键词和最短摘要提取算法。3.利用决策树分类舆情。 数据集:网络上各种论坛或者贴吧的回复、新闻等信息 总结:创新点并没有特别大,只是将LDA直接用起来,并利用了LDA模型中的参数得到关键字和摘要,使用的SVM分类和决策树也都是已成熟的算法,其实,使用java和php将整个系统构建出来才是论文主要的贡献。 可借鉴:将lda应用于舆情分

您可能关注的文档

文档评论(0)

wujianz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档