- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
非结构化数据ETL设计方法探讨
非结构化数据ETL设计方法探讨 摘 要:现代信息技术在行业中的应用日益深入,而各系统在开发过程中因其自身的独立性,在处理相关业务或实现数据管理时,多需要从异构环境下来进行整合。文章结合当前流行的公共仓库元模型以及ETL技术特点,针对非结构化数据的差异性,探讨属性提取和数据打包的有效方法,为实现非结构化数据的ETL设计奠定基础。 关键词:非结构化数据;CWM元模型;ETL设计 计算机技术、网络通信技术在行业应用的不断深入,诸如各类ERP系统、CRM系统、SCM系统及其他商业应用系统的开发,由于各系统在开发过程中因其独立性特点,在优化系统应用、改善业务流程等过程中,不得不考虑在异构环境下的数据资源共享问题。异构环境下的数据格式及定义是不一致的,而对于相对封闭的应用系统数据资源来说,如何更有效的提升数据资源的应用效力,提高数据资源的共享水平,结合行业应用差异和不同部门对数据的实际需求,从数据的整合需求上,建立起不同系统下数据仓库的数据转换技术即ETL技术,就显得尤为迫切。 1 ETL技术概述 ETL(Extract-Transform-Load )技术是数据抽取(Extract)、转换(Transform)、装载(Load)的过程。从其技术概述来看,Extract是对数据的抽取过程,其作用是从原始数据系统中读取所需要的数据,是实现数据转换工作的前提;Transform是按照预先设计规则进行相应转换的过程,其作用是基于异构的数据资源实现对数据格式及定义的统一;Load是对数据仓库进行装载的过程,其作用是对转换后的数据重新导入到数据仓库中,以实现对数据资源的有效整合。从国内外ETL技术的发展与应用来看,主要有IBM Data Stag、Informatics Power Center、Oracle 2 ODI,以及国内开发的Bee Load等产品。在中高端应用上以Data Stage和Power Center居多。ETL技术能够实现对异构数据库中相关数据的挖掘和统计,并结合数学模型来实现对未来发展进行可靠的预测分析,为行业决策支持系统提供有效的数据服务功能。 2 ETL技术模型分析 从主流的ETL技术应用来看,多以元数据为基础,也就是说满足CWM元数据标准的数据模式。CWM是Common Warehouse Meta-model的简称,由国际对象管理组织OMG制定的元数据模型标准,其作用主要是为了能够对异构环境下各数据仓库中的元数据进行交换和共享。其逻辑结构图如下所示: 图1 ETL技术逻辑示意图 在ETL系统中,借助于元数据采集工具来实现对源数据库、主题数据库,及相关数据抽取、转换、装载等操作,并依据CWM元模型标准,存储于元数据库。其执行过程是通过系统调度模块来实现对相应元数据的抽取与整合,其元数据主要包括三类:一是技术元数据,如ETL技术对各类源数据库中的数据类型、数据格式、数据序列名等进行描述,并准确获得源数据库与主题数库之间的变化信息;二是操作元数据,主要包括对业务用户和数据操作有价值的元数据,如数据质量、更新计划、访问模式等;三是业务元数据,主要包括对各业务用户有用的信息,如数据的所有权及各类业务规则,数据装载计划等,其作用能够为用户与数据仓库提供访问的桥梁。 3 ETL数据分析及设计 从CWM元数据模型对ETL系统的逻辑关系来看,这些元数据具有明确的格式特点、属性及数据关系,可以通过使用二维表来进行逻辑表达。而对于异构环境下无法用二维逻辑表进行表达的非结构化数据来说,其相对零散的数据堆积,不仅存在大量数据冗余和无效信息,还难以用简单的结构化描述语言进行准确表达。也就是说,对于非结构化数据,如视频数据、图像数据、音频数据等信息进行管理和提取时,迫切需要从ETL技术设计上来进行优化。在对CWM元数据结构进行分析后,ETL系统设计主要是对存储在源数据库中的结构化数据进行抽取、转换和加载,而对于非结构化数据来说,其元数据属于技术元数据,只要处理好技术元数据中的非结构化数据的转换,使其便于使用CWM元数据驱动ETL系统即可。因此,对于非结构化数据系统中的操作元数据和业务元数据,依据常规的数据控制转换模块即可完成对源数据库到主题数据库的装载。 对于结构化数据可以根据数据的属性来建立元数据,而对于非结构化数据,则需要从各种数据的隐藏属性进行分析,并使其能够显现出来。我们从非结构化数据的自有属性进行观察,主要有时间属性、空间属性、内容属性、格式属性、来源属性、获取手段属性及使用属性等,通过对原有非结构化数据文件进行重新命名分类,如结合某应用需要来建立新的文件名,即单位_科室_总类_分类_具体类型_日期.pdf,就可以很清晰的反映出某数据文件的来源、分类及时间等信息。Adobe公司的PDF数
您可能关注的文档
最近下载
- 初三数学二次根式测试题目一二.doc VIP
- 高考物理公式大全.doc VIP
- 《心肺复苏术》PPT课件ppt.pptx VIP
- 2023-2025高考英语高频词汇汇编(打印背诵版).pdf
- 5.1 社会历史的本质 课件(共34张PPT)(含音频+视频).pptx VIP
- 让蕲艾走向世界详细资料.ppt VIP
- 家政保洁企业发展规划经营计划.pptx VIP
- 局限性脑炎多学科决策模式中国专家共识(2025版).docx VIP
- 中国成人急性呼吸窘迫综合征(ARDS)诊断与非机械通气治疗指南(2023)解读PPT课件.pptx VIP
- 2023中国成人急性呼吸窘迫综合征(ARDS)诊断与非机械通气治疗指南(完整版).pdf VIP
文档评论(0)