网站大量收购独家精品文档,联系QQ:2885784924

4SCI地址字段数据清洗推理机设计.doc

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
4SCI地址字段数据清洗推理机设计.doc

基于推理机的SCI地址字段数据清洗方法设计 张晋辉1,2,刘清2 (1.中国科学院 研究生院,北京 100190; 2.中国科学院国家科学图书馆武汉分馆,湖北 武汉 430071) 摘 要:文章探讨了将推理机引入到SCI地址字段数据清洗中的方法。首先通过指出目前SCI地址字段数据清洗方法的不足阐述了进行SCI地址字段数据清洗方法研究的必要性,然后介绍了推理机的基本原理,并对应用于SCI地址字段数据清洗中的推理机进行了设计,包括待推理数据的生成、知识库的构建及推理控制策略的设计等,旨在提出适用于SCI地址字段数据清洗的方案。 关键词:推理机;SCI地址字段;数据清洗;方法;设计 中图分类号: G350 Design of A Data Cleaning Method of SCI Author’s Addresses Based on Inference Engine Zhang Jinhui1, 2 ,Liu Qing2 (Graduate University of Chinese Academy of Sciences, Beijing 100190, China; 2.The Wuhan Branch of the National Science Library, CAS, Wuhan 430071, China)effectiveness and reliability of specific bibliometrics application, this paper introduces inference engine into the data cleaning procedure which is suitable for SCI author’s addresses field. By illustrating the limitations of the current data cleaning methods with address field,this paper has accentuated the necessity of a better way in cleaning. After intrducing the basic principles of inference engine, the paper takes the articles of Chinese Academy of Sciences in SCI database as an example to design an inference engine used in the data cleaning of SCI author’s addresses, including the reasoning data table, the knowledge database and the reasoning control strategy and so on. The advantages and disadvantages of this method are also summerized. Keywords:inference engine; SCI Institutional addresses; data cleaning; method; design 1 引言 数据清洗源于数据仓库、数据挖掘等领域,指的是从数据源中检测和消除错误数据、不一致数据和重复数据,从而改善数据库中数据质量的过程。虽然数据清洗得到了国内外学者的普遍关注,然而截止到现在,它也没有公认的定义,不同的应用领域对其有不同的解释[][][][],但其本质是不变的,就是消除“脏数据”的过程。这里的“脏数据”是不同应用领域数据源中不符合要求的数据的统称。后来,数据清洗被广泛应用于和数据处理相关的各个领域,也包括文献计量领域。 文献计量工作中,数据清洗是一个非常重要的、不可或缺的环节,应用了众多的方法和手段。这些方法和手段以人工和半自动为主。其中,人工清洗结果精确得当,但工作量浩繁无比,效率甚低;而半自动清洗在速度上提高不少,但清洗结果可靠性差,错误繁多(关于这一点有很多原因,后文将有阐述),需人工辅助再次清洗。按照我们的实际工作经验,文献计量分析工作中,数据清洗所占的时间占全部工作量的80-90%。由此可以想见好的、高效的数据清洗方法对于文献计量工作的重要性是如何之大。 推理机(Inference Engine)Addresses)在文献计量应用中是非常重要的,被频繁分析的对象之一。所以本文选取SCI中文章的地址字段作为提出问题和解决问题的对象,设计将推理机应用于SCI地址字段数据清洗中,以探索数据清

您可能关注的文档

文档评论(0)

ailuojue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档