对图书情报领域部分高产作者和研究特色双向聚类的探索.pdfVIP

  • 29
  • 0
  • 约 6页
  • 2017-08-17 发布于安徽
  • 举报

对图书情报领域部分高产作者和研究特色双向聚类的探索.pdf

PU-21-0006 对图书情报领域部分高产作者和研究特色双向聚类的探索 ∗ ∗ 方丽 崔雷 中国医科大学信息管理与信息系统(医学)系 110001 1 引 言 近年来,利用书目文献数据库进行共现分析的研究已经引起图书情报学、科学学等领域研究人员的关注,很多学 者采用这种方法分析某一学科领域的研究现状和结构,并取得了比较满意的效果。书目文献数据库中可以用于共现分 析的字段主要是在同一个字段中共存多个项目的字段,如论文的作者、主题词或关键词以及引文,其中引文的共现分 析又可以进一步分解为作者同被引、期刊同被引等等。最早开展共现分析的应该是高被引论文的同被引聚类分析。另 一条研究主线则是对主题词或关键词的共现分析。根据这些共现数据,很多学者开展了对高被引论文、高被引作者和 高频主题词的聚类分析,以此将这些分析对象分类。但在现有的研究中,无论是采用系统聚类还是快速(K-means) 聚类的算法,都是单向的聚类,即只对行(对象)或者列(属性)进行聚类,不能对行和列同时进行聚类。本研究尝 试将一种新的双向聚类的方法应用到文献研究中,并通过实例分析其特点。 双向聚类(biclustering, 又称 subspace clustering, coclustering, direct clustering)是对矩阵的行与列 同时进行聚类的一种数据挖掘技术,可以对聚类对象和聚类的属性同时聚类。双向聚类方法在文献计量学领域有广阔 的运用前景。例如,对高被引论文和引用文献的双向聚类可以反映出被引文献和引用文献的对应关系,甚至是同时实 现同被引聚类分析和基于高被引论文的引文耦合分析。作者合著(或单位合作)与相应文献的双向聚类分析可以反映 出作者(单位)合作的具体论文和成果,等等。 本文以图书情报领域中部分高产作者作为聚类对象,以其发表论文的高频主题词作为分类属性,运用双向聚类的 方法,同时对高产作者和论文关键词进行聚类,并进行可视化表达。尝试根据研究特色对某个学科领域内高产作者的 聚类。 2 材料和方法 在中国知识基础设施工程(China National Knowledge Infrastructure, CNKI)中国学术期刊网络出版总库中, 检索 2000-2010 年《中国图书馆学报》和《情报学报》上刊载的所有文献,截至 2010 年 4 月 21 日,查得文献 3033 篇。 利用书目信息共现挖掘系统(Bibliographic Item Co-occurrence Mining System,BIC0MS)对文献集的作者和关 键词进行统计,统计结果为作者 2910 位,与这些作者相关的关键词 5948 个。 2.1 作者的遴选 根据普赖斯定律:“在同一主题中,半数的论文为一群高生产能力作者所撰,这一作者集合的数量上约等于全部作 者总数的平方根”,本文近似地选择高产作者 53 位,见表 1。(sqrt(2910)=53.944) ∗方丽(1987-),女,硕士在读,主要研究信息计量学。 ∗崔雷(1963-),男,硕士,系副主任,教授,主要从事文献计量学和文本挖掘研究。博士生导师。 表 1 图书情报两刊物中作者频次统计表 序号 高产作者 出现频次 序号 高产作者 出现频次 序号 高产作者 出现频次 1 邱均平 59 19 吴慰慈 14 37 贺德方 11 2 侯汉清 31 20 段宇锋 14 38 党延忠 11 3 苏新宁 30 21 陈远 14 39 靖继鹏 11 4 董慧 28 22 郑建明 13 40 崔雷 11 5 张玉峰 27 23 刘兹恒 13 41 王子舟

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档