大学数字化校园数据交换集成平台设计方案.doc

大学数字化校园数据交换集成平台设计方案.doc

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大学数字化校园数据交换集成平台设计方案 数据交换平台依据学校实际需要,建立分层次的功能处理结构。数据交换引擎建设成为一个面向服务的、流程驱动的综合服务平台,通过标准、开放的数据连接、服务接口,实现跨越异构应用系统的数据交换与服务合成,实现对综合服务平台的Web服务的集中管理、健康监控、安全管理、统计分析等服务管理功能。 《图 信息交换平台示意图》 数据中心通过ETL方式从业务数据库中抽取数据,将数据抽取到逻辑层的ODS中,并进行更高层次的抽取和清洗工作,为数据仓库提供数据支撑。 对于需要提供数据交换服务的系统,数据中心提供了完善的Web Services接口,相关系统可通过标准的接口调用获得所需要的数据。 数据交换平台规划 交换平台由应用服务层、信息接口及工具层、信息存储层、信息集成层、信息接入层、业务数据源层组成。 应用服务层 提供高级报表、教育评估、综合查询、应用业务历史查询、一体化应用操作与监管服务。该层面向最终使用者,为校内用户提供个性化服务,包括应用系统(学生服务、教务服务、人事服务、科研服务、学籍服务、设备服务、办公服务、外事服务等)、对外数据服务、共享数据的统计查询及报表服务、和没有业务系统对应的共享数据管理等服务。 信息接口及工具层 提供Web services XML交换、SQL操作、Search API、报表/查询配置工具等。其中面向个人查询、管理定制服务是由本层提供的。 信息服务层的各种服务不能直接操作数据库,必须通过调用统一的数据访问模块实现对数据库中数据的操作。 信息存储层 提供给予校园信息标准的共享数据存储,包括操作数据库(直接与业务系统数据、文件进行交换的信息,保留业务系统当前数据状态);具有周期性全库扫描存储操作数据库镜像的历史数据库;学校未来跨业务部门一体化流程业务数据库;部门临时报表及统计使用的临时数据库等五个部分。 该层的数据是学校一切活动所涉及的、用于共享的公共数据集,来源于学校的各个业务部门,并基于“谁产生,谁维护”的原则,由对应的业务部门管理。从数据来源上分。 基于校园信息标准的临时、当前及历史数据存储;提供异构校园应用系统数据源的数据复制、转换、查询、缓存、标准化ETL等数据服务。 统一交换平台支持基于语义的SQL、XML、Web Services 、Search API的共享访问接口;自身提供自定义报表工具、灵活查询工具以及在此之上建立的综合业务报表、自定义查询等共享应用服务。保障了学校跨业务部门的数据标准一致性与共享互换的技术需求。 ETL ETL是数据抽取、清洗、转换、装载的过程,同时提供数据质量的管理、数据转换与清洗、调度监控,并且贯穿整个数据中心解决方案的全过程。ETL是构建数据中心的关键环节,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据中心转化的过程,是实施数据中心的重要步骤。ETL规则设计和实施是项目中工作量很大的部分,其工作量通常要占整个项目工作量的50%以上。 数据抽取 数据抽取是从源系统中获取数据,以便加载到数据仓库中。数据的抽取必须能够充分满足数据中心系统分析及决策支持的需要,同时必须保证不能影响业务系统的性能,所以进行数据抽取时必须充分考虑这些因素,制定相应的策略,包括抽取方式、抽取时机、抽取周期等内容。 抽取方式:增量抽取、完全抽取等。 抽取时机:尽可能避开业务系统的高峰时段,比如在夜间业务系统比较闲时。 抽取周期:综合考虑业务需求和系统代价,制定合理的抽取周期,如按照小时、天、周、季度等。 数据清洗 数据清洗的目的是选出有缺陷的数据,通过把他们正确化和规范化来满足信息使用者需求的数据质量。 由于数据清洗是一件增加成本的过程,提高数据质量的最终目的是希望得到干净和标准的数据来降低数据清洗和转换上的工作。 数据清洗可以在以下场合发生: 源数据的清洗:目的是提高系统中已有数据结构的数据质量。 对数据转换的数据清洗:目的是清洗、转换和提高从现有系统到目标架构中的数据质量。 数据中心的数据清洗:目的是确保用于数据分析的数据的质量。 以下是数据清洗的流程: 定义数据源:记录下所有会包含需要实体的数据源,并且标识出权威的数据源。决定在哪里进行数据清洗和转换。 抽取和分析数据源:从数据源中提取数据样本,分析这些数据是否符合定义,发现数据非正常的结构和格式,定义业务规则。 标准化数据:转换数据到一个通用的数据模型中,基于定义标准化格式和数据值。 正确和完整的数据:基于正确的规则纠正不正确和非标准的数据。定义如何处理遗失的数据,例如是找寻丢失的数据还是使用默认的数据。确定如何处理不确切的错误数据。 匹配和合并数据:确定对于同一个实体的多个数据,并把他们合并到同一个同期的记录中。合并同时需要把所有和这个合并有关的记录进行去重。 分析数据错误类型:发现数

文档评论(0)

阿宝 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档