基于Kleinberg 算法楚辞文献突发信息监测研究.docVIP

下载本文档

184
0
约3.82千字
约 8页
2018-08-28 发布于福建
举报
版权申诉

基于Kleinberg 算法楚辞文献突发信息监测研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Kleinberg 算法楚辞文献突发信息监测研究

基于Kleinberg 算法楚辞文献突发信息监测研究　　摘要：文献计量学中的突发词监测算法广泛应用于领域热点的监测分析。该文以先秦楚辞为主题，使用Kleinberg突发监测算法对学术数据库中2004年至2012年的楚辞文献数据进行计算分析。在获得楚辞研究领域中各主题的突发权重的基础上，利用信息聚类技术得到楚辞研究热点在不同阶段的突发趋势。这不仅是突发词监测算法在人文社科领域的一次尝试，也为传统楚辞研究提供一种新的研究思路。　　关键词：楚辞；突发词监测；Kleinberg算法　　中图分类号：TP18 文献标识码：A 文章编号：1009-3044（2015）04-0086-05 　　随着数字信息的广泛应用，以学术数据库为基础的文献也逐年递增。利用信息管理方法对已有文献进行热门主题分析已经成为文献管理和数据挖掘的重要研究分支之一。　　文献信息挖掘最重要的方式就是通过文献元数据信息进行统计分析，而对关键词的研究是文献计量学[1]的一个重要切入点。利用关键词进行统计和分类，是研究文献主题以及知识挖掘的一个重要方法。突发词监测是指对短期内单个词在领域内的增长势头研究，进而发现学术领域中局部热点的变化。将关键词的突发性作为主要指标，通过自动机分析调整突发权重在不同领域内的同步率成为国内外进行研究的主流方法，如Ketan对核糖核酸，Cell Line等关键词的突发性分析[2]，Chen.C利用Citesapce对突发词的研究[3]，崔雷利用共词突发性研究医学热点[4]等。　　突发词监测算法在自然科学领域，尤其是在医学领域应用广泛，在社科领域特别在传统文学领域的应用仍处于起步阶段。现以楚辞文献为例，将突发词监测的研究方法，用来研究楚辞文献中的关键词及其突发性，为楚辞研究提供计量分析的依据。　　1 Kleinberg监测算法　　突发词监测算法是研究增长势头不断加强的词，这些词在揭示领域热点发展趋势方面更具有及时性。基于单个词的词频增长率变化更有可能涉及领域局部热点的变化，这样细微变化不一定会引起全域研究者的注意，但又是领域发展中不可缺少的部分。虽然它还未达到词频阈值的要求，但是未来的发展势头好，这些词可能低频，但却具有情报意义。　　Kleinberg突发词算法[5]是Kleinberg于2002年提出的话题突发监测（Burst Detection）算法。Kleinberg认为话题的文献数量不是平滑增长，而是在不同水平之间跃迁。Kleinberg基于自动机对不同时间段上词出现的频次进行建模。词突发时，自动机处于高频状态。给定文献集合，确定状态的个数、状态差异的大小，以及状态改变的成本，利用Viterbi动态建模法对状态改变的概率模型求最优解，便可得出自动机状态变化的最优时序序列。　　权重即关键词由非突发状态跃迁到突发状态的成本。就一般情况而言，突发词权重数值越大，表明其在一个时期内突发的可信度就越高，以此来显示领域研究的热点。　　2 楚辞文献的数据准备　　2.1 主题词选择　　突发主题词的选择以《汉语主题词表》①为基础，结合楚辞领域权威著作的《楚辞字典》②。这样不仅覆盖了文学研究常用汉语主题词，还也满足在专业领域方面的要求。使文献摘要中的关键词都能得到相应权重。在除去重复和不符合研究规范的无效词后，最终确定473个基词。　　2.2楚辞文献来源　　为确保数据的权威和有效性，这里选取的数据库有CNKI和万方数据库；检索范围主题（标题，摘要或者关键词）中包含楚辞的所有文档，根据突发词算法的要求，挑选其2004-2012年的文献作为主要研究对象，根据其提供摘要格式逐条下载，保存题录信息，其中包括：文献题目，作者，作者单位，关键词，发表时间，刊名。突发监测的默认研究文献，目标限定在标题、关键词、摘要中涉及的楚辞精神和楚文化的文献，并确认文章题录信息有效。　　2.3 数据预处理方法　　为确保突发词权重的准确可信，在实际测试前，对数据进行整理清洗，主要包括：剔除不相关的论文，删去重复的论文，优化关键词结构等，具体如下：　　1）去重：一方面是篇目去重。由于很多论文在不同的刊物发表，即一稿多投，所以在搜索结果中同一篇文章会出现多次；有时，会出现部分不涉及楚辞领域研究的会议论文或讲话稿，这些主题词及其内容的重复会干扰突发词的权重，需要筛查清除无关论文；另一方面是主题去重，根据本文选用的《汉语主题词表》与《楚辞词典》为标准，对题要中的表达同义词，异体字进行归并。　　3.3 突发词监测结果分析　　根据对楚辞主题词的突发权重计算，第一组词在2004年权重最大，相关主题词显示这一时期楚辞的研究主要集中在楚辞中爱国主义思想的继承与表达，同时突发的关键词是审美和文献。我们进行主题还原，2004年前后