- 10
- 0
- 约5.12千字
- 约 8页
- 2016-11-23 发布于北京
- 举报
科技文献中作者研究兴趣动态发现.doc
科技文献中作者研究兴趣动态发现
摘要:
针对挖掘大规模科技文献中作者、主题和时间及其关系的问题,考虑科技文献的内外部特征,提出了一个作者主题演化(AToT)模型。模型中文档表示为一定概率比例的主题混合体,每个主题对应一个词项上的多项分布和一个随时间变化的贝塔分布,主题词项分布不仅由文档中单词共现决定,同时受文档时间戳影响,每个作者也对应一个主题上的多项分布。主题词项分布与作者主题分布分别用来描述主题随时间变化的规律和作者研究兴趣的变化规律。采用吉布斯采样的方法,通过学习文档集可以获得模型的参数。在1700篇NIPS会议论文集上的实验结果显示,作者主题演化模型可以描述文档集中潜在的主题演化规律,动态发现作者研究兴趣的变化,可以预测与主题相关的作者,与作者主题模型相比计算困惑度更低。
关键词:
主题模型;时序分析;无监督学习;文本模型;困惑度
0引言
科技文献资源的利用长期以来受到学术界的重视,早期的研究是利用传统的信息检索方法对科技文献进行计量分析、提供共享服务等。这些仅靠词频统计的方法难于发现文档中潜在的语义联系,无法满足用户对科技信息深层次的需求[1-2]。2003年,Blei等[3]提出了潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型,在挖掘海量文档数据隐含信息方面取得了很好的效果。在学术挖掘方面,对LDA模型的扩展已有大量的研究。RosenZvi等[4-5]在LDA模型中引入作者,用作者主题分布取代LDA模型中文档主题分布,提出作者主题(AuthorTopic,AT)模型,用于发现作者与主题之间的联系。在AT模型中,将文档按时间划分到不同的时间片内,然后计算不同时间点的作者、主题的后验概率可以分析作者、主题随时间的变化规律[6]。但这种方法在主题、作者采样时没有考虑时间的影响,而且分析效果取决于“时间粒度”的选择。Blei等[7]利用状态空间模型将时间因素加入LDA中提出了动态主题模型(Dynamic Topic Model, DTM),DTM模型将文档划分到不同时间窗口下,分析了主题随时间变化规律。在DTM基础上,Wang等[8]利用布朗运动模型提出了连续动态主题模型(continuous time Dynamic Topic Model, cDTM),解决了DTM模型时间片划分的问题。文献[9-10]研究了文档集中主题稀疏的问题。DTM等模型都是在马尔可夫假设的基础上分析主题演化规律,Wang等[11]不依赖于马尔可夫假设提出了Topics over Time(ToT)模型。ToT模型中每篇文档都有一个时间戳,看成连续的观察值,服从贝塔分布,主题词项分布的产生同时考虑单词共现和文档时间戳。ToT模型中时间是连续的,不需要考虑“时间粒度”选择的问题。上述模型分析的都是科技文献的内容,而科技文献的一些外部特征如作者等都没有涉及,不能分析文献作者的研究兴趣的变化情况。
结合AT、ToT模型提出了一个作者主题演化(AuthorTopic over Time, AToT)模型,用来分析科技文献中作者与主题的关系、主题随时间的变化规律。在AToT模型基础上可以有很多应用,如引导研究人员快速了解相关领域专家,跟踪专家研究兴趣变化;帮助政府机关即时寻找基金资助对象,编辑即时寻找审稿专家等。
1作者主题演化模型
作者主题演化模型是在作者主题模型中加入时间因素,主题的产生同时依赖于单词共现和文档时间戳。概率图表示如图1所示,符号说明见表1。
图1中环形表示观察值,圆形表示隐含变量,箭头表示变量的依赖关系,矩形表示重复次数[12]。AToT模型中,文档表示为一定概率比例的主题混合体,每个主题对应一个词项上的多项分布和一个随时间变化的贝塔分布,主题词项分布不仅由文档中单词共现决定,同时受文档时间戳影响,时间戳对应于这篇文档中的所有单词,服从贝塔分布。每个作者也对应一个主题上的多项分布。文档集中单词的产生过程描述如下。
3实验分析
3.1数据集及实验环境
使用的数据集是1987年到1999年NIPS(Neural Information Processing System)会议的论文全文,经过去停用词等预处理得到的文本数据包括:共1740篇文档,13649个词项,2301375个单词,2037个作者。实验环境是英特尔酷2双核E8400 3.00GHz处理器,4GB内存。一些参数设置为:主题数量固定为100,超参数设定为α=50/K, β=0.1,迭代次数为2000。上述条件下,Gibbs采样用时为4.5h(每8s完成一次迭代)。
3.2泛化能力分析
困惑度(perplexity)是评价模型泛化能力的标准指标,一般情况
您可能关注的文档
- 知识工程的应用研究进展.doc
- 知识治理研究回顾:成因、现象、表现维度、机理及作用综述.doc
- 知识管理视角下大学生就业能力提升的对策研究.doc
- 矩阵左半张量积的一些重要性质.doc
- 短信平台在商业企业的应用研究.doc
- 短距离的精彩.doc
- 矮生观音莲高效栽培技术.doc
- 石化行业环境监理方案编写研究.doc
- 石家庄 童车童车产品人气高等.doc
- 石家庄滹沱河城市滨河区景观设计.doc
- 广东省广州省实验中学教育集团2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州大学附属中学2025-2026学年八年级上学期奥班期中物理试题(解析版).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(含答案).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(解析版).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 2026《中国人寿上海分公司营销员培训体系优化研究》18000字.docx
- 《生物探究性实验教学》中小学教师资格模拟试题.docx
原创力文档

文档评论(0)