数据工程及相关问题的初步研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据工程及相关问题的初步研究 阎保平肖云吴开超 (中国科学院计算机网络信息中心,北京100080) 摘要本文提出数据工程的概念,并通过初步研究,进一步提出了数据处理过程 中的数据生命周期以及数据活动的概念。数据工程以数据作为研究对象,主要研究 数据生命周期中数据的组织、采集、管理、深加工等相关活动,并归纳总结出数据 活动的基本特征和相关特性。通过数据工程的研究,可以推动数据处理过程的规范 化,有效地利用数据资源。 关键词数据工程科学数据库数据生命周期数据活动 1.引 言 世界科学技术不断进步,社会经济迅速发展,使得人类在科学研究、社会生活、政治经 济等各项活动中积累了大量的数据,这些数据是人类在社会活动中积累下来的宝贵财富。据 统计,近30年来在人类各项活动中所产生的数据量已经超过了过去5000年的总和。近年来, 随着信息技术的发展,随着网络技术、计算机技术、海量存储技术的不断进步,使得人们有 可能对大量数据进行复杂处理。 数据及其处理过程涉及人类生活的各个方面,不仅包括自然科学中的物理学、化学、生 物学、地球科学等,还与人们社会生活中的各项活动等有着密切的联系。但遗憾的是,到目 前为止还没有-f-j专门针对数据进行系统研究的科学,使得在各个学科、领域中对数据的处 理、应用等方面缺乏统一的理论指导。如果不对数据自身进行深入研究,就不能了解数据生 命周期中的数据特征,把握数据活动的规律,也就不能有效地管理、利用宝贵的数据资源, 就不能发掘数据资源中巨大的潜在价值为人类的各项活动服务。 可以看出,人类各项活动中产生的海量数据以及人们对于有效利用数据资源的需求,促 使人们对数据自身特性、数据处理过程等进行系统研究,最终作为自然科学的一个独立分支 而产生了一门独立的学科,这门学科就被称为“数据工程”。数据工程通过研究数据自身, 来达到有效、规范地利用数据资源的目的。 2.数据处理的发展历程 人类在其各项活动中产生了大量数据。在电子计算机出现以前,数据处理主要通过人工 方式、或机械方式来完成。在人类活动的早期,主要通过人工方式完成,典型的数据处理工 具就是中国传统的算盘;20世纪初以来,机械式计算机的出现,使得人们开始以半自动的方 式进行数据处理。在这个过程中,由于人工方式、机械方式的处理能力有限,使得这时数据 处理所涉及的数据量还不够大,数据处理相对还是比较简单,基于数据的各类应用还处于初 级阶段。 随着20世纪中期电子计算机的出现并广泛应用,数据处理的技术有了长足的进步。20世 31 纪50年代开始,计算机就开始应用于商业数据处理、科学计算等领域,进入了以自动方式进 行数据处理的时期。80年代以来,随着网络技术的进一步发展,数据处理技术也在不断提高。 随着信息技术的进步,数据处理的应用领域也越来越广泛,在数据处理中涉及的数据量也越 来越大,应用类型越来越复杂。以下以比较典型的科研活动研究中科学数据处理、社会活动 中经济数据处理为例来做简要说明。 科学实验、系统模拟、理论研究是科学研究的三大方法。其中科学实验、系统模拟都涉 及到大量数据的处理,通过对科研数据的分析处理,研究自然科学、社会科学的发展规律。 随着研究过程的不断深入,现在的科学研究产生了非常大量的数据。尽管针对数据处理的信 息技术取得了很大的发展,无论数据处理能力、海量存储管理、高速网络等方面取得了很大 的进展,但是硬件水平的提高并未能完全解决大规模数据处理的问题。实际上,数据处理还 远远不能满足科学研究的要求,数据处理依然是制约科学研究的一个重要方面。 在人们的社会活动中也产生大量的社会活动数据。这些数据大到一个国家的宏观经济数 据,小到一个公司的生产数据、财务数据、销售数据等,这些数据的数据量也非常巨大,并 且对于经济活动具有非常重要的价值。遗憾的是,目前对这部分数据的利用主要停留在IT技 术层面的研究上,仅仅通过数据挖掘、数据仓库等技术手段来研究社会活动的局部特征。要 有效利用这部分数据资源,除了研究IT技术外,更需要研究数据自身,系统研究数据处理过 程中的各项活动,利用工程化的观点从全局角度研究数据的关联,只有这样才能更有效利用 数据资源,从中发掘出更大的社会价值。 可

文档评论(0)

bb213 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档