网站大量收购独家精品文档,联系QQ:2885784924

人保财险公司数据仓库数据ETL的设计.docVIP

人保财险公司数据仓库数据ETL的设计.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
人保财险公司数据仓库数据ETL的设计.doc

人保财险公司数据仓库数据ETL的设计   摘 要:本文探讨了人保财险公司建立数据仓库时如何进行数据导入的设计,阐述了数据导入的设计基础和数据加载的策略。   关键词:数据仓库;抽取;加载   中图分类号:TP311.13   在进行人保财险公司数据仓库整体架构的设计时,对数据库的访问必须保持较高的访问效率,还必须满足多个用户对数据库的并发访问,这样才能保证整个数据库系统稳定安全的运行。在数据仓库的模型和结构体系的设计确定之后,就应该具体实现数据仓库。数据ETL是数据仓库最重要最基础的部分,也是数据仓库数据处理正确一致、完整、可靠的技术保障。只有数据ETL具备良好的性能才能保证整个数据仓库系统高效的运行,才能得到最终正确恰当的数据分析结果。   1 设计原则   (1)模块化的系统设计。采用模块化设计,首先可以严格区分管理控制和数据处理,其次采用松散度相对较高的模块设计可以解决由于数据源不断扩大导致系统必须进行不断扩充才能满足日益增加的系统扩展的需求的问题。   (2)统一的调配与控制。采用统一的调配与控制是为了给数据ETL的高效运行提供有力的技术管理保障。在统一管理模式的控制下,处于数据ETL每一个周期的任务状态和运行情况及出错信息都能直观的显现出来。   (3)高效的ETL加载策略。高效率的ETL加载策略,能够缩短ETL的加载时间,从而提高ETL过程的效率。解决在数据导入层数据处理环节多,数据吞吐量大的问题。ETL的基本原则是尽量发挥Teradata在性能方面的优势,实现对大数据量进行数据统计、分析、汇合、改换等各种繁琐计算的操作。   (4)安全的用户管理。在数据仓库数据ETL的整个运行过程中,不同的ETL环节都有数据的传输与交流,所以数据本身的安全性就显得特别重要。只有对数据库用户的口令进行加密保护并妥善保存,才能保障在进行数据的加载与转换时指定数据库用户的数据访问的安全性。   (5)便捷的消息通知机制。ETL的设计体系应该有特定部分可以完成及时把任务的执行情况通知负责ETL加载运行和维护的人员的功能,此项作用由消息通知机制来实现。消息通知机制采用邮件或短消息等形式,把每天ETL任务的执行情况和出错警报信息通知相关维护人员。   2 数据抽取   数据抽取是数据进入数据仓库的第一项操作,数据抽取模式设计的是否恰当,决定了数据的数量是否合理数据的质量是否能够满足使用需求。以下将探讨增量抽取的技术方案,增量抽取是抽取系统不断变化的数据,这里将探讨数据上次抽取和装载任务完成后的日常抽取工作。技术方案的具体内容是:   (1)时间戳,时间戳是为了记录新记录的加入时间和原有记录内容的调整时间及用户的关联信息,增量抽取数据时,可以查询源表的时间戳就可以完成。   (2)扫描增量文件,由相应的应用程序自动生成增量文件,增量文件记录数据应用过程中的变化,通过增量文件的内容既可以获得增量数据。   (3)扫描日志文件,日志文件内记录了最近发生变化的数据。   (4)设立触发器,在源表中建立一个触发器,每当在源表中插入、更新或删除一条记录时,即数据发生变化时,触发触发器,生成一个表或文件存储新增加的数据或有变化的数据;   (5)映像文件比较,用原有的映像文件与新生成的映像文件进行比较,从比较结果中分析获取哪些数据发生了变化。   对几种方案进行分析比较,采用增量文件的方案需购买其它相关厂商的产品;映像文件进行原有映像文件和新生成映像文件比较时,要耗费巨大的软硬件资源才能够实现,从技术角度考虑实现比较困难,一般不采用此方案;而时间戳、日志文件进行扫描和设立触发器这三种方案实现比较容易而且性能比较高。考虑技术可行性和保险公司的数据仓库需求,最后选用时间戳和触发器相结合的方案实现数据的增量抽取功能。具体做法是对业务处理系统表的结构进行调整,添加记录的最后修改时间和数据提取时间等字段作为时间戳。当数据记录有调整时,由触发器负责实现把修改时间等信息记录在业务处理系统表的时间戳字段。最后提取时间表的字段设计如表1所示。   表1 最后提取时间表字段设计   BeginStatDate DATETIME YEAR TO SECOND 最后提取开始时间   EndStatDate DATETIME YEAR TO SECOND 最后提取结束时间   EndAlterDater DATETIME YEAR TO SECOND 最后修改时间   Flag CHAR(1) 标志字段   但是数据抽取也必须解决以下问题:   (1)数据信息不完整。例如有些数据为空值,是因为有时根据实际需要赋了空值,但数据查询时空值无法完成,此时可以用默认值代替或用其它数据进行计算处理来生成等方式实现不完整信息的填充。例

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档