统一数据交换在数字校园中的研究和实现.pdfVIP

统一数据交换在数字校园中的研究和实现.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中国高等教育学会教育信息化分会第九次学术年会论文集 ·379· 统一数据交换在数字校园中的研究与实现 张亚娟,李一呜 (西安交通大学信息与网络中心,西安,710049) 摘要:本文以数字校同数据集成为背景,对数字校罔建设中存在的“信息孤岛”问题进行J,分析,并针对这一问题, 介绍丫如何利用集中的数据交换思路来解决这一问题;并以统一数据交换模式在数字校同中的应用为例介绍了西安交 通大学统一数据交换平台的核心设计与实现。 关键词:数宁校园:统一数据交换:信息孤岛 1引言 随着信息技术的普及和发展,许多组织机构中各部门的日常业务处理工作都采用了计算机进行管 理和运行。纵观信息管理的现状,大多数的组织机构都存在着多个异构系统,其数据的组织和存储结 构也各不相同,进而形成了“信息孤岛”、数据的唯一性和实时性难以保证等问题。例如在数字校园 的发展过程中,由于学校各部门原有应用系统的独立建设,各系统问相互独立、无法共享数据,不能 满足数字校园的数据需求,因此需要一种新的技术来解决这些问题。统一数据交换模式就是针对大量 存在的“信息孤岛”现象,解决异构环境中信息的正确性及实现信息的高效共享和交换的重要手段, 统一数据交换平台将各个离散的数据源联合起来,建立一个全校的数据平台,在数据平台基础上,各 个部门之间可以直接提供并获取共享数据,从而解决“信息孤岛”的问题。 2数据集成中的相关问题及其解决方案 2.1用户数据的集中问题 数字校园是以校园网为基础,利用先进的信息化手段和工具,实现从环境、资源到活动的全部数 字化,在传统校园教育的基础上构建一个数字空间,实现教育过程的全面信息化,以达到提高教育管 理水平和效率的目的。因此数字校园的发展就是指校园向网络化、智能化和个性化的一个发展过程。 在数字校园中,首当其冲的是解决用户数据的统一性,而统一数据交换平台就是为解决数据统一 这一核心问题而设计的,其核心过程是数据交换技术中的抽取、转换、清洗和加载(ETL),以及在此 过程中保证数据的一致性、解决数据冲突、进行有效的元数据管理等;它可以实现新旧系统间的同构、 异构数据的整合,便于数据的使用和管理:它可以灵活高效地从各个应用系统中抽取用户源数据,并 根据转换标准进行数据转换,并将转换过的数据存入中央数据库。中央数据库将为各业务信息系统提 供一致的、稳定的共享用户数据源,它是目前各个应用系统用户数据的汇集地。 2.2数据质量问题 数据质量是指数据能够一致地满足用户需求的程度,它具有正确性、完整性、一致性和可靠性的 特点。现实世界数据集的数据质量取决于很多因素,经过我校统一数据交换平台的运行统计,87%的 数据一致性问题出在数据源,如数据录入差错、数据未录入或者少录入等。通常,源数据中错误的、 不一致的或无用的数据称为脏数据。尽管人们为了防止错误,在前端处理中做了很多技术上的判别工 作,但在大数据集中仍然会存在许多问题。这些问题的逻辑解决方案是数据清洗,探索数据集中可能 出现的问题并尽可能校正之。当然,对于任何现实世界的数据集,用手工来做这项工作是完全没有问 题的,不少学校每年要花很多人力做这项工作,即便如此手工清洗过程也很费时、费力而且易出错。 对于大数据集而言,自动清洗过程可能是唯一可行的有效的方法。我们可以将数据源中数据质量问题 划分为单数据源和多数据源问题两大类。如图2.1所示: 中国高等教育学会教育信息化分会第九次学术年会论文集 ·380· 广——————] —昌 巨鲴巨国 矗商矗函 固圆圈圆 国圆圈圃 。‘。。。。。。。。。。。。。。。‘o…’‘‘‘‘。。。。。。‘‘。。。。’。一 口口口口 图2.1数据质量问题分类 2.3数据清洗和统一数据交换原理分析 数据清洗(datacleaning),同时也被称为数据净化(datasc

您可能关注的文档

文档评论(0)

bb213 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档