- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
从WOS地址字段提取二级机构数据半自动数据清洗方法
从WOS地址字段提取二级机构数据的半自动数据清洗方法
摘 要 各高校都需要统计本校各个二级机构Web of Science (WOS)发文情况,论文提出一种基于正则表达式的半自动数据清洗方法,可从WOS地址字段中提取出发文机构排名、所属二级机构名称以及对应作者群,并以2015年南京师范大学WOS发文统计为例,进行实证研究,分析出各院系发文情况和作者发文情况。
关键词 二级机构 正则表达式 数据清洗 WOS地址字段 科技查新
分类号 G250.78
DOI 10.16810/j.cnki.1672-514X.2017.08.012
A Semi-automatic Data Cleaning Method for Extracting Secondary Institutions’ Data from WOS Address Field
He Chunjian
Abstract Chinese higher education institutions need to count the articles included in Web of Science (WOS) by their secondary institutions. This paper puts forward a semi-automatic data cleaning method based on regular expressions for extracting ranking of the dispatch agency, name of the secondary institutions and the corresponding authors from WOS address fields. At last, it takes the statistics of articles included in WOS of Nanjing Normal University in 2015 as an example to conduct an empirical study, and analyze the situation of the articles issued by various faculties and authors.Keywords Secondary institutions. Regular expression. Data cleaning. WOS address field. Sci-tech novelty search.
0 引言
Web of Science(WOS)不仅是世界范围内最权威的科技文献索引工具之一, 也是科研评价的一种依据。科研机构被WOS收录的发文总量及被引用次数, 反映整个机构的科研, 尤其是基础研究的水平。各高校均需对本校WOS发文进行统计,这些WOS论文的收录及被引情况是机构内部重要的考核指标。而在统计这些WOS论文的时候,需要将检出的所有文献全部准确地划分到各个二级机构,最终归属到具体作者,以便主管部门全面了解各院系科研情况并统计考核教职工的科研工作。然而直接从WOS数据库下载的数据中没有专门的二级机构字段。二级机构的信息包含在地址字段中,所以需要对地址字段进行数据清洗,以便准确快速地获取二级机构的信息。
梁桂英等[1]研究了如何构建非特异性机构论文检索式,丁海德等[2]研究了地址信息著录差异与错误分析,苗艳荣、房文革[3-4]研究构建合适的机构检索式,兼顾查准率与查全率,这些文献的焦点均是查准查全一级机构发文,没有关注二级机构。张晋辉等[5]提出一种SCI地址字段数据清洗方法,也不以二级机构为研究对象。张红燕、胡小洋等[6-7]提到了高校WOS发文的院系分布情况,但没有提及是如何进行文献清洗的。刘贤玉[8]报道了一种快速统计学校中二级机构学院论文的方法。本文通过分析、?Ρ取⒛庋∪?WOS中的地址字段为研究对象,利用正则表达式对该字段进行文本处理,清洗数据后可获得二级机构变名,再辅以人工识别将得到的二级机构变名划归到具体的学院。本文不预设二级机构的变名,不依赖于对作者的熟悉程度,最大程度地降低了人工排查的工作量,使得数据统计既快捷又准确。
1 数据收集与清洗方法
1.1 数据收集
检索策略及方法: 在WOS数据库的检索页面中的地址栏输入“Nanjing normal univ”, 在日期范围内输入“2015―2015”。选择数据SCI-EXPANDED、SSCI、AHCI、CPCI-S、 CPCI-SSH,检索时间2016年1月10日,共计检索出982条记录。
将检索到的文献记录选择“保存为其他文
您可能关注的文档
最近下载
- 出院结算单费用模板.doc VIP
- 2014款北京现代瑞纳_汽车使用手册用户操作图解驾驶车主车辆说明书电子版.pdf
- ccdcmos原理介绍讲义.pptx VIP
- 驾照科目一考试题库(完整版).doc VIP
- 图像传感器ccdcmos.ppt VIP
- 美剧剧本绝望主妇台词本中英文对照精排版第一季第一集.pdf VIP
- CCDCMOS原理介绍讲义..ppt VIP
- 【生物】免疫与免疫规划第2课时课件-2025-2026学年人教版八年级生物上册.pptx VIP
- 驾照科目一考试题库(完整版).doc VIP
- 综合实践 记录我的一天 分享我的一天(说课稿)-2024-2025学年一年级上册数学北师大版(2024).docx VIP
文档评论(0)