科技文献中作者探究兴趣动态发现.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
科技文献中作者探究兴趣动态发现

科技文献中作者探究兴趣动态发现   摘要: 针对挖掘大规模科技文献中作者、主题和时间及其关系的问题,考虑科技文献的内外部特征,提出了一个作者主题演化(AToT)模型。模型中文档表示为一定概率比例的主题混合体,每个主题对应一个词项上的多项分布和一个随时间变化的贝塔分布,主题词项分布不仅由文档中单词共现决定,同时受文档时间戳影响,每个作者也对应一个主题上的多项分布。主题词项分布与作者主题分布分别用来描述主题随时间变化的规律和作者研究兴趣的变化规律。采用吉布斯采样的方法,通过学习文档集可以获得模型的参数。在1700篇NIPS会议论文集上的实验结果显示,作者主题演化模型可以描述文档集中潜在的主题演化规律,动态发现作者研究兴趣的变化,可以预测与主题相关的作者,与作者主题模型相比计算困惑度更低。 关键词: 主题模型;时序分析;无监督学习;文本模型;困惑度 0引言 科技文献资源的利用长期以来受到学术界的重视,早期的研究是利用传统的信息检索方法对科技文献进行计量分析、提供共享服务等。这些仅靠词频统计的方法难于发现文档中潜在的语义联系,无法满足用户对科技信息深层次的需求[1-2]。2003年,Blei等[3]提出了潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型,在挖掘海量文档数据隐含信息方面取得了很好的效果。在学术挖掘方面,对LDA模型的扩展已有大量的研究。RosenZvi等[4-5]在LDA模型中引入作者,用作者主题分布取代LDA模型中文档主题分布,提出作者主题(AuthorTopic,AT)模型,用于发现作者与主题之间的联系。在AT模型中,将文档按时间划分到不同的时间片内,然后计算不同时间点的作者、主题的后验概率可以分析作者、主题随时间的变化规律[6]。但这种方法在主题、作者采样时没有考虑时间的影响,而且分析效果取决于“时间粒度”的选择。Blei等[7]利用状态空间模型将时间因素加入LDA中提出了动态主题模型(Dynamic Topic Model, DTM),DTM模型将文档划分到不同时间窗口下,分析了主题随时间变化规律。在DTM基础上,Wang等[8]利用布朗运动模型提出了连续动态主题模型(continuous time Dynamic Topic Model, cDTM),解决了DTM模型时间片划分的问题。文献[9-10]研究了文档集中主题稀疏的问题。DTM等模型都是在马尔可夫假设的基础上分析主题演化规律,Wang等[11]不依赖于马尔可夫假设提出了Topics over Time(ToT)模型。ToT模型中每篇文档都有一个时间戳,看成连续的观察值,服从贝塔分布,主题词项分布的产生同时考虑单词共现和文档时间戳。ToT模型中时间是连续的,不需要考虑“时间粒度”选择的问题。上述模型分析的都是科技文献的内容,而科技文献的一些外部特征如作者等都没有涉及,不能分析文献作者的研究兴趣的变化情况。 结合AT、ToT模型提出了一个作者主题演化(AuthorTopic over Time, AToT)模型,用来分析科技文献中作者与主题的关系、主题随时间的变化规律。在AToT模型基础上可以有很多应用,如引导研究人员快速了解相关领域专家,跟踪专家研究兴趣变化;帮助政府机关即时寻找基金资助对象,编辑即时寻找审稿专家等。 1作者主题演化模型 作者主题演化模型是在作者主题模型中加入时间因素,主题的产生同时依赖于单词共现和文档时间戳。概率图表示如图1所示,符号说明见表1。 图1中环形表示观察值,圆形表示隐含变量,箭头表示变量的依赖关系,矩形表示重复次数[12]。AToT模型中,文档表示为一定概率比例的主题混合体,每个主题对应一个词项上的多项分布和一个随时间变化的贝塔分布,主题词项分布不仅由文档中单词共现决定,同时受文档时间戳影响,时间戳对应于这篇文档中的所有单词,服从贝塔分布。每个作者也对应一个主题上的多项分布。文档集中单词的产生过程描述如下。 3实验分析 3.1数据集及实验环境 使用的数据集是1987年到1999年NIPS(Neural Information Processing System)会议的论文全文,经过去停用词等预处理得到的文本数据包括:共1740篇文档,13649个词项,2301375个单词,2037个作者。实验环境是英特尔酷2双核E8400 3.00GHz处理器,4GB内存。一些参数设置为:主题数量固定为100,超参数设定为α=50/K, β=0.1,迭代次数为2000。上述条件下,Gibbs采样用时为4.5h(每8s完成一次迭代)。 3.2泛化能力分析 困惑度(perplexity)是评价模型泛化能力的标准指标,一般情况

文档评论(0)

linsspace + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档