数据仓库的数据标准化思路.docxVIP

下载本文档

218
0
约2.1千字
约 5页
2017-02-05 发布于重庆
举报
版权申诉

数据仓库的数据标准化思路.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据仓库的数据标准化思路

数据仓库的数据标准化思路?数据标准化对于大型公司而言，各个下层子公司都使用自己本地的业务系统，当这些子公司数据往上汇总到总公司时，常常出现代码不一致，数据歧义等等各种各样的问题，在这种情况下，数据标准化就变得不得不行了。典型的例子，比如医院，大型医院往往包含多个分院，而分院都是用自己的业务系统。业务数据采集汇总后，发现数据结构及数据本身出现歧义，无法直接使用。因此，就不得不对本院及分院的业务数据进行标准化处理，避免歧义，使数据更真实可用，简单易理解。数据标准化处理应当注意两个关键点：一号对应一对象。以病人为例，病人可能在各分院及本院都注册建档，因此同一病人可能在各分院都有不同的ID号，但数据采集到本院，与本院数据合并后，进行标准化处理，应保证此病人具有新的唯一ID号。同时需保留病人曾经的各分院及本院ID号，便于其他分院数据的关联（如分院的病人缴费数据需要关联原始分院号码，之后以标准化后唯一ID号，进入本院系统）。事实数据标明数据来源。如病人缴费信息，因为缴费事实产生的位置不同，需要进行来源标注，分清本院及各分院，便于数据理解及之后的查询和统计。在构建DW时的数据标准化处理流程上，可以考虑通过以下方式来完成。标准化准备在标准化处理之前，需要对DW表格结构进行一些处理，使得标准化过程易于实施，也保证标准化的结果更易于理解。对于不同的表格上，所需新增的字段也不尽相同。下面分类进行说明：维表比如病人信息，科室信息，员工信息，设备信息等，新加字段如下：字段名类型说明备注ID数字代理键，主键由序列生成，新的唯一ID号HISTORY_IDLIST文本曾经使用的编号列表对应分院+分院ID号，以;分隔START_DATE日期记录生效时间拉链使用，可选END_DATE日期记录失效时间拉链使用，可选事实表如病人缴费，医生处方，手术记录等，新加字段如下：字段名类型说明备注SOURCE_ID数字数据来源，本院、分院表示数据来源；应新增本院/分院信息维表，记录source_id对应的分院名，地址，热线等信息ARCHIVE_FLAG文本记录是否可归档(Y/N)对于已处理完成的信息，如病人已出院，进行可归档标记；DW保留一段时间后，可考虑部分归档数据迁移到二级存储，减轻压力START_TIME日期记录生效时间拉链使用，可选END_DATE日期记录失效时间拉链使用，可选数据标准化处理在数据标准化的处理过程中，也应分为两步进行处理，先进行维表的代码（如ID号）标准化，然后将事实表中的记录以标准化后的代码配合原来的事实信息（如缴费）及数据来源标记（哪个分院）采集到DW标准事实表中。维表标准化维表标准化以病人维表为例进行说明将本院及各分院的维表数据采集到DW标准库的缓冲区（可将本院及各分院数据放置于缓冲区的不同用户下）首先标准化本院数据，标准化后的数据写入标准表格。以病人身份证号进行区分，身份证号第一次出现时，取新的序列值为病人的标准化ID号，并将病人的原始信息（本院编号+原始ID号）记入history_idlist字段；同一身份证号之后重复出现时，将病人的原始信息添加到history_idlist字段即可。之后标准化分院数据，对于本院中未出现的身份证号，取新的序列值为病人的标准化ID号，并将病人的原始信息（分院编号+原始ID号）记入history_idlist字段；同一身份证号之后重复出现时，将病人的原始信息添加到history_idlist字段即可。注：在病人的原始信息记入history_idlist字段时，可选择同时将标准化的病人ID号和原始ID号写入一个代码转换表，便于之后分院事实表通过此代码转换表，根据原始ID号，找到新的标准化ID号。当然，分院事实表也可通过对标准化病人维表的history_idlist字段的全文搜索，找到对应的标准化ID号。实际实施中，以实施效率进行灵活调整即可。事实表标准化将本院及分院的事实表数据采集到DW标准库的缓冲区本院及分院事实表需与上一步生成的代码转换表关联（或搜索history_idlist字段），根据原始病人ID号，找到新生成的标准化ID号，联合其它的事实数据（如缴费），写入到新的标准化事实表本院及分院事实表数据写入DW标准库的同时，在标准化事实表的source_id字段中标注事实数据来源（本院或分院的编号）DW数据标准化实施在实施标准化时，可分为标准化初始化-增量标准化来实施，标准化初始化处理数据量最大，之后增量标准化，只要采集增量数据到缓冲区即可。标准化初始化标准化初始化示意图如下：初始化主要完成以下工作：以某个时间点为界，采集本院、分院数据到DW标准库缓冲区在缓冲区进行数据标准化后，写入DW标准库写入完成后，清理缓冲区，但建立了代码转换表的话，代码转换表可保留标准化增量标准化增量示意图如下：标准化增量主要完成以下工作