- 15
- 0
- 约9.23千字
- 约 16页
- 2018-10-14 发布于福建
- 举报
国内外关联数据的研究热点对比分析
国内外关联数据的研究热点对比分析
摘要:[目的/意义]国内关联数据研究尚出于研究发展的初期,理论研究和应用研究也都尚未成熟。通过对国内外研究热点主题对比分析,为国内关联数据研究起提供借鉴。[方法/过程]通过数据分析和文献调研,分别从发文量、研究群体、词频以及主题识别等方面进行中外研究的对比分析,从中发现国内外关联数据研究存在的差距。[结果/结论]在对比分析的基础上,针对国内关联数据研究提出研究本土化、注重应用型研究、优化研究群体结构以及关注关联数据学科化应用4点发展建议。
关键词:关联数据 研究热点 对比分析 数据分析
分类号:G250.7
1 引言
自2006年T. Berners-Lee提出关联数据的概念以来,研究人员便开始对关联数据进行深入的研究。关联数据是W3C推荐的一种用于发布和联接各类数据的规范,旨在建立一个映射所有自然、社会和精神世界的数据网络,通过对大千世界万事万物及其相互之间关系进行机器可读的描述,来构建一个一个富含语义的、互联互通的知识海洋,使人们可以在更大范围内准确、高效、可靠地查找、分享、利用这些相互关联的信息和知识[1]。国内对关联数据的关注最早始于2008年,由曾蕾、刘炜等在于上海举办的“数字环境下图书馆前沿问题”研讨班上将关联数据这一概念正式引入国内。自此,国内关于关联数据的研究不仅在数量上日渐增多,研究的主题也日趋广泛。本文通过对国内外相关研究文献进行共词分析、主题挖掘,并借助SPSS、Sati等工具进行统计、主题聚类分析等,试图通过对比找出国内关联数据研究的特点与不足,为国内关联数据研究及发展提供指导。
2 数据来源与研究方法
本文研究数据力求精准、全面,在中文数据的收集过程中,笔者发现除核心词汇“关联数据”以外还有一些其他关键词,笔者也将它们列入检索式;在保证数据全面性的同时,考虑到中文词汇的多义性,还对初步的检索结果做了进一步的人工筛选,最终得到381条文献数据。在中文数据的筛选过程中,笔者发现381条数据基本上都是图书馆学与情报学(G25)和计算机科学(TP3)领域的文献,并通过文章第一作者所在的机构信息对此进行了验证。因此在英文数据的收集过程中,为了确保对比的有效性,本文对研究方向做了限定。本文中英文数据来源信息具体如表1所示:
本文章主要应用统计分析、关键词共现分析和对比分析3种研究方法。统计分析主要是试图从数据量的角度来反映研究的发展现状以及未来的发展趋势;关键词共现分析的主要原理是通过关键词对共同出现的次数来反映二者之间的亲疏关系,进而反映相关研究主题之间的关系结构[2];对比分析可以很好地反映出比较对象之间的不同,在理论研究方面,比较结果可以很好地指导劣势方的发展。
3 数据分析
在正式的数据分析之前,本文对所获取的数据中的关键词项进行了基本清理,清理方式主要有中英文合并、单复数合并以及低价值词汇剔除等。为了对数据本身有更深入的理解,以下从发文量、词频、主题聚类及核心主题判定等方面对数据内容进行深度挖掘。
3.1 发文量分析
发文量的变化能够反映一个领域的发展状况以及未来的研究趋势,对国内外关联数据研究数据按照时间进行统计,其结果见图1。关联数据的概念最早在2006年被提出[3],2008年之后便进入研究的快速发展期,2014年达到了发文量的峰值,之后的研究热度呈下降趋势。国际上对于关联数据的研究表现为理论与实践共同发展的态势,随着关联数据理论研究主题的丰富和内容的深入,国外关联数据事业也得到了长足的发展。相比于国际来说,国内相关研究具有一定的滞后性――国内最早在2008年12月引入了关联数据这一概念,而最早见刊的是姚小乐、刘炜等人翻译自E. Summers等人的《LCSH,SKOS和关联数据》一文,该文从信息组织的角度对关联数据做了基本的介绍[4];国内关联数据研究的增长也较为迅速,并呈现进一步加速增长的趋势,预计2017年会出现发文量的峰值,但由于受到国际研究热度下降的影响,国内发文量的峰值也可能会提前到来。另外,笔者还根据分类号对文章的学科信息进行了统计,中文数据中计算机科学文献占比约为51%(202篇),图书馆学情报学文献占比约为49%(196篇),同属于这两个学科的文献共17篇;英文数据中计算机科学文献占比约92% (1 275篇),图书馆学情报学文献占比为8%左右(107篇),同属于两个学科的文献共68篇。
3.2 词频统计分析
关键词是文章研究内容的直接体现,词频的高低可以体现出关键词之间重要性的差异;对国内外相关数据进行关键词统计及共词分析能够反映关联数据研究的热点主题以及热点主题之间的关系结构。本文章使用SATI 3.2进行关键词抽取和词频统计,中文数据中共含802个关键词,
原创力文档

文档评论(0)