科技情报分析中LDA主题模型最优主题数确定方法研究.PDF

科技情报分析中LDA主题模型最优主题数确定方法研究.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
科技情报分析中LDA主题模型最优主题数确定方法研究

研究论文 科技情报分析中LDA 主题模型最优主题数 确定方法研究* 关 鹏 1,2 王曰芬 1 1( 南京理工大学经济管理学院 南京 210094) 2(巢湖学院应用数学学院 合肥 238000) 摘要: 【目的 】有效确定科技情报分析中 LDA 主题模型的最优主题数目。【方法 】利用主题相似度度量潜在主 题之间的差异, 同时结合困惑度提出一种确定 LDA 最优主题数目的方法, 该方法既考虑主题抽取效果同时也考 虑模型对新文档的泛化能力。【结果 】获取国内新能源领域的科技文献作为数据集, 实证结果表明本文提出的最 优 LDA 主题数确定方法与单纯使用困惑度相比, 具有更高的主题抽取查准率(91.67%)、F 值(86.27%)及科技文献 推荐精度(71.25%)。【局限 】未针对其他类型的数据集进行新方法的验证, 如微博短文本、XML 文档等。【结论 】 本文方法能够有效地从科技文献数据集中抽取辨识度较高的主题, 并能够提高科技文献推荐效果。 关键词: LDA 主题模型 相似度 困惑度 科技情报分析 分类号: G202 环节发挥重要作用, 不需要展示主题的具体形式, 只 1 引 言 需要实现文本降维即可。但在科技情报分析任务中(如 LDA(Latent Dirichlet Allocation)[1]主题模型是统 科学研究主题发现与主题演化), LDA 必须将主题抽取 计语言模型中的典型代表, 近几年在情报分析、知识 的结果展示并分析, 主题抽取的质量直接影响主题抽 服务、知识发现等领域得到了广泛的应用, 主要集中 取和主题演化的效果。 在科学文献知识挖掘[2-4]、科学研究热点发现与新兴主 (2) LDA 在情报分析中的应用更注重主题数目的 题探测[5-7] 、科学研究主题演化[8-10] 、学术评价[11]等研 确定。目前普遍认为应用LDA 的最大问题是无法确定 究方向。LDA 之所以在情报学领域获得了广泛的应用, 最优主题数目[17] 。而主题数目的确定对于科技文献主 主要原因在于 LDA 适合海量异构文本数据的建模, 其 题抽取至关重要。从目前国内外情报学领域应用 LDA 优势是可以将文本表示的维度大大降低, 从而避免维 进行科技情报分析的情况看, 以上的两个问题还没有 数灾难[12] 。科技情报分析中大量实证研究证明了 LDA 引起足够的重视。 的可靠性和有效性, 但仍存在一些问题没有解决。与 一般的文本挖掘任务相比, 科技情报分析对 LDA 提出 2 相关工作 了更高的要求, 主要表现在以下两点: 大量实证研究证实 LDA 主题抽取效果与潜在主题 (1) 在一般的文本挖掘任务中(如文本聚类、文本 数目 K 值有直接关系, 主题抽取的结果对 K 值非常敏 分类、文本自动摘要[13-16]等), LDA 往往在中间的降维 感。基于此, 国内外不少学者展开了相关研究, 通过各种 通讯作者 : 王曰芬, ORCID: 0000-0002-7143-7766, E-mail: yuefen163@163.com 。 *本文系国家自然科学基金研究项目“新研究领域科学文献传播网络生长及对传播效果影响研究”(项目编号:、国家社会科学基 金重点项目“大数据环境下社会舆情与决策支持方法体系研究”(项目编号: 14AZD084)和江苏高校哲学社会科学重点研究基地(培育点)“社会 计算与舆情分析”的研究成果之一。 42 现代图书情报技术 总第274 期 2016 年 第9 期 方法确定最优主题数目, 比较常用方法有以下三种: 而主题辨识度与主题之间的相似度密切关联, 当主题 (1) Blei 等采用困惑度(Perple

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档