文献题录信息统计分析技术的可视化研究.docxVIP

  • 6
  • 0
  • 约7.25千字
  • 约 6页
  • 2023-10-26 发布于广东
  • 举报

文献题录信息统计分析技术的可视化研究.docx

文献题录信息统计分析技术的可视化研究 要总结学科领域的研究方法有很多,其中科学数据的统计分析更常用于对学科文献的统计分析。学术期刊有科学研究成果公布、传播、积累、评价和学术导向等功能。Law等学者曾比较指出科技文献对于把握学科研究结构和发展的作用与优势,大部分研究领域的主要学者都将研究成果贡献于科技文献,而且从电子期刊数据库采集大量数据也更加低廉和便利。随着期刊全文数据库的普及和信息处理技术的进步,文献题录作为描述文献外部特征的重要元数据集合,通过计算机技术和计量方法来对一定学科领域内的题录数据进行处理与分析,可揭示文献集合内外部特征并延伸挖掘出学科研究结构(Structure)与发展动态(Dynamics)。 本文基于.NET平台利用C#编程语言设计开发出具有通用价值的文献题录信息统计分析工具(Statistical Analysis Toolkit for Informetrics,SATI)。软件可导入处理四种格式国内外文献题录数据,具有题录格式转换、字段信息抽取、词条频次统计和知识矩阵构建等四大功能。结合文本预处理技术和基于共现分析的信息可视化技术,以图书情报学为实例进行关键词共现分析,借助SPSS、Ucinet等软件生成可视化结果,以揭示国内外图书情报学研究领域结构,直观呈现知识单元间的关系,并通过中外比较探讨国内外研究的共性和差异。 1 基于wos的文本生成和数据统计 国外关于文献信息统计分析的技术方法和应用软件相对较为成熟,已有社会网络分析软件Ucinet(内嵌开源软件Pajek,Netdraw和Mage)、科学计量学研究软件Bibexcel、文献可视化信息分析软件Citespace等,但这些软件都主要针对Web of Science(WoS)等国外数据库平台开发,需要专门的数据输入格式,对于国内期刊全文数据库题录数据不能直接处理。为兼顾处理国内期刊题录数据和国际WoS题录数据,本文尝试设计开发对国内外期刊全文数据库进行文献题录信息统计分析的统一软件。 技术方法的关键在于对国内和国际期刊全文数据库所导出题录数据的兼顾处理,设计思路是先将不同来源的数据格式统一转换为SATI处理的专用XML格式,抽取指定字段信息,得出条目元素(即词条Term,指语句元素的最小单元,可以是字、词或短语,包括关键词、主题词、文本预处理后的分词等受限词或自然词)的频次统计文档,再分析知识单元间的共现关系和频率分布,生成共现矩阵、分布矩阵和文档词条矩阵,继而实现对海量文献信息的定量分析和可视化呈现。 按此思路,我们首先对国内三大期刊全文数据库知网、万方和维普的题录数据格式进行细致的分析,找出了三大主流输出格式EndNote格式、NoteExpress格式和NoteFirst格式题录数据的字段信息特征,主要体现在用于区别不同字段的标识符和词条的分隔符(如知网新平台EndNote格式题录数据中,关键词字段的标识符是“%K”,关键词之间的分隔符是“;;”或“,”,但不同数据库平台和期刊会稍有不同,需进行特殊处理),利用同样的方法再同时对WoS导出的HTML格式题录进行特征分析,通过编程实现抽取不同字段信息,转换生成为SATI软件专用的XML格式文件;在自动导入转换后的XML文件后,基于抽取出的相应字段信息,再利用频次统计算法得出词条频次统计文档;然后将频次降序排列表中相应数量的条目元素(词条)作为知识单元按照适当的算法模型构建出共现矩阵、分布矩阵和文档词条矩阵。设计思路如图1所示。 为便于后期数据的进一步处理和可视化呈现的需要,软件可同时生成Excel格式矩阵和.txt文本格式全矩阵。只要将共现矩阵文档导入相应的数据分析软件(如Ucinet、SPSS等),即可构建出知识单元聚类图、多维尺度分析图、共现网络知识图谱和策略坐标图等。 2 生成文件和统计分析 我们把自主设计开发的文献题录信息统计分析工具命名为SATI,作为免费辅助软件,软件官方网址为:,主界面如图2所示。软件采用中英文两种界面,DataGridView和TextBox两种视图。 目前软件主要实现了以下四大功能: (1)题录格式转换:支持输入WoS数据库平台导出的HTML格式、国内期刊全文数据库导出的EndNote格式、NoteExpress格式和NoteFirst格式题录数据。对英文题录关键词、主题词、标题和摘要字段进行文本预处理(Tokenization,Stop Words[注1]Stemming[注2])操作,中文题录标题、摘要进行中文分词[注3]和停用词[注4]处理后,将题录自动转化为XML格式的SATI专用数据文件,以为后期题录数据的存储、交换和分析提供便利。 SATI专用数据文件(XML格式)采用简洁的三层树状结构,实例如图3所示。用户可将期刊全文数据库导出的题录文件导入

文档评论(0)

1亿VIP精品文档

相关文档