论我国学术文献数据库质量调控.docVIP

  • 4
  • 0
  • 约3.79千字
  • 约 7页
  • 2017-06-15 发布于福建
  • 举报
论我国学术文献数据库质量调控

论我国学术文献数据库质量调控   【摘 要】我国学术文献数据库受缺乏统一规划、知识产权归属模糊等因素影响,导致录入失真、录入误差、数据检测技术失效等问题,影响了用户的检索,降低学术文献数据库使用的性价比,阻碍了学术文献数据库的规模化和国际化。需要从政府调控、提升文献数据库的技术开发水平、完善学术文献数据库的标准化、建立学术文献数据库的评价体系等方面,提高学术文献数据库的质量 【关 键 词】学术文献数据库;学术文献数据库质量;改进对策 【作者单位】王丰年,《清华大学学报》编辑部 20世纪80虽然学术文献数据库已经把纸版期刊的文章数字化,但是,如果用户下载文章仍然需要使用文字识别软件,将图形文字转化为文本文字,那么这种转化就可能产生误差,容易出现乱码 由于我国各个学术文献数据库阅读器格式不同,既有兼容图文的PDF格式,也有纯文本的TXT格式,以及网页WEB格式,导致文字、图像、表格使用不同格式的阅览器时呈现的清晰度不同,而且在信息压缩、信息存储方面还存在许多技术瓶颈,没有解决图像质量和信息压缩比例的矛盾,这些影响了阅读、下载文章界面的清晰程度 很多学术文献数据库扫描纸版学术期刊后,将其分类、加工,放在数据库里,出售给用户。扫描仪的分辨率直接影响数据库文章的清晰度,笔者在检索学术文献数据库过程中,曾不止一次发现页面不清晰的情况。纸版学术期刊存放过程中,难免有划痕、涂抹、斑点,遗憾的是学术文献数据库连同这些瑕疵一起呈现给用户。如中国知网同一篇文章中的“、”位置不一,影响了读者的阅读体验 2.数据遗漏 很明显的遗漏是很多学术文献数据库没有收录纸版学术期刊的封面和封底,这样,用户查不到封底标示的文章出版日期、刊号。很少学术文献数据库对某一期刊的收录从创刊开始,这导致用户的检索不完整。截至2012年10月,即使是收录规模较大的中国知网,虽然收录国内学术期刊7900多种,但是其中创刊至1993年的期刊也只有3500余种 虽然各个学术文献数据库尽量齐全地收录重要会议论文、学术期刊、博士学位论文、工具书、年鉴,但是难免有遗漏。例如,中国知网已经收录了2011年第10―12期《世界经济研究》,但是2011年第9期却没有收录[2] 3.数据录入错误 学术文献数据库的数据采集、整合、审校都需要人工操作,涉及人工操作的题名、文献分类录入差错会影响文件数据库的准确程度 4.数据更新滞后 学术文献数据库完成全文收录,以及整理作者信息、篇名、关键词、摘要等一系列工作都需要一定的时间,更为关键的是,为了维持纸版学术刊物的发行量,学术文献数据库肯定不能和纸版学术刊物同步发行,即使录入流程较快的中国知网,也一般滞后纸版学术刊物1―3个月 5.数据检测技术的失效 虽然有些学术文献数据库开发了学术不端论文检测系统,在一定程度上制约了学术造假现象,但是,这同时也促使学术造假不断升级。因为检测系统比对的是相同字段,只要换一种表达方式,例如改词、换句、改变描述方式、打乱段落顺序,即使观点、内容重复也查不出来。例如,在中国知网输入篇名《基于多中心治理的公共政策产出机制研究》搜索,出现18篇篇名相同或类似、作者相同的文章,其中16篇文章题目完全相同。中国知网的学术不端检测结果是否有效? 6.数据技术的误差 与计算机技术、网络技术、信息技术一样,学术文献数据库的技术支持一直处于完善的过程,计算机硬件的性能、计算机的存储容量和网络传输的准确性直接关系到学术文献数据库的质量 除技术壁垒外,各个学术文献数据库在使用操作上存在不同程度的误差。例如如果用户浏览、下载需要利用文字识别软件,把图形文字转为文本文字,这种转化存在的误差会导致用户下载文字时出现乱码 7.缺乏统一的标准化格式 无论是国家新闻出版广电总局,还是具体的编辑行业协会,都没有制定学术文献数据库的体例规范,所以,要“尽快制定各种数字出版相关的内容标准、格式标准、技术标准、产品标准、管理和服务标准” [3]。中国知网、万方数据库、龙源期刊网、维普数据库在数据的排列格式、主题标引等细节上都存在差异,导致同一主题或者同一文章在不同学术文献数据库中检索会出现不同的结果。有些图、表、符号的数字化存在技术瓶颈,因此,学术文献数据库的体例规范不能照搬纸版学术期刊。纸版学术期刊存在多种体例规范,仅仅以纸版刊物页下注为例,就有页下注、尾注、文中夹注等形式,有的将注释和参考文献混为一谈,导致学术文献数据库的体例规范五花八门 因为我国没有学术文献数据库的统一技术标准,所以,出现了HTML、PDF、CAJ、DOC、 CEB、TEB……格式。用户需要下载PDF、CAJ等不同的浏览器或软件格式,才能浏览、下载各个不同学术文献数据库的文章。例如,万方数据库的数字化

文档评论(0)

1亿VIP精品文档

相关文档