烟草行业数据中心基本介绍.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * * * * * * * * * * 采集数据表结构设计 4.数据采集设计 2.0 3.0 4.0 5.0 1.0 被采集端数据结构 平 行 采 集  采集端数据结构 表名:产量表 表名:产量表 字段名称 字段编码 数据类型 字段名称 字段编码 数据类型 年份 YEAR 整数 年份 YEAR 整数 产量 AMOUNT 浮点数 产量 AMOUNT 浮点数   表名:销量表 表名:销量表 字段名称 字段编码 数据类型 字段名称 字段编码 数据类型 年份 YEAR 整数 年份 YEAR 整数 销售量 AMOUNT 浮点数 销售量 AMOUNT 浮点数 建立采集表数据结构时,可综合考虑采集的数据量、效率要求、前置机性能、被采集数据结构的稳定性等因素,选择不同的采集表数据结构: 表结构相同的平行采集还是进行整合后的汇总、合并采集 固化的实体表还是灵活的动态定义表 * 采集数据表结构设计 4.数据采集设计 2.0 3.0 4.0 5.0 1.0 被采集端数据结构 合 并 采 集  采集端数据结构 表名:产量表 表名:产销表 字段名称 字段编码 数据类型 字段名称 字段编码 数据类型 年份 YEAR 整数 年份 YEAR 整数 产量 AMOUNT 浮点数 产量 P_AMOUNT 浮点数 销量 S_AMOUNT 浮点数 表名:销量表 字段名称 字段编码 数据类型 年份 YEAR 整数 销售量 AMOUNT 浮点数 建立采集表数据结构时,可综合考虑采集的数据量、效率要求、前置机性能、被采集数据结构的稳定性等因素,选择不同的采集表数据结构: 表结构相同的平行采集还是进行整合后的汇总、合并采集 固化的实体表还是灵活的动态定义表 * 采集数据表结构设计 4.数据采集设计 2.0 3.0 4.0 5.0 1.0 采集端数据结构 表名:数据表 表名:字段定义表 字段名称 字段编码 数据类型 字段名称 字段编码 数据类型 表标识 TABID 整数 字段标识 FIELDID 整数 字段 FIELDn 浮点数 字段名称 FIELDNAME 字符 表名:表定义 字段名称 字段编码 数据类型 表标识 TABID 整数 表名称 TABNAME 字符 建立采集表数据结构时,可综合考虑采集的数据量、效率要求、前置机性能、被采集数据结构的稳定性等因素,选择不同的采集表数据结构: 表结构相同的平行采集还是进行整合后的汇总、合并采集 固化的实体表还是灵活的动态定义表 * 数据采集机制设计 4.数据采集设计 3.0 2.0 4.0 5.0 1.0 联机采集(ETL) 对于关系型数据源,并且允许直接访问的,采用以ETL为基础的联机采集机制。 中间表方式 对于关系型数据源,能够联机,但不允许直接访问的,可以考虑采用中间表方式采集,即业务系统将需要提供的数据拷贝到中间表中,然后从中间表采集数据。 数据离线导入 对于不能联机访问的,可以采用数据离线导入的方式,即业务系统将数据定时导出(比如excel格式),然后采集系统根据这些文件进行离线导入。 人工审核填报 对于原来没有计算机系统,只有纸介质数据的,可以采用人工填报+审核方式采集。 * 数据增量处理设计 4.数据采集设计 4.0 2.0 3.0 5.0 1.0 对于本身具有增量标识字段(比如时间戳)的数据源,直接使用其标识字段实现增量采集; 对于没有直接的增量标识字段,但业务处理过程中能够判断到增量数据的,由业务系统将增量数据主动放到中间表里,然后采集系统从中间表中采集数据; 为了确保数据的准确性,在上一种情况下,由业务系统将增量数据的主键(唯一判断条件)主动放到中间表里,然后采集根据中间表中提供的判断条件,去原表中提取数据; 对于业务本身无法识别增量,但是允许进行修改的,则在其数据库中建立增量监控,通过这个监控器来标识哪些是增量数据; 对于业务本身无法识别增量,但是数据量比较小,或者采集频率不高的,则先进行全部采集,然后通过数据比对的办法处理; 在上述情况都不能满足的情况下,如果数据库提供技术手段对数据操作过程进行日志分析的,则通过联机日志分析获得增量数据。 * 数据传输机制设计 4.数据采集设计 5.0 2.0 3.0 40 1.0   在数据采集到前置机后,需要建立数据传输机制,实现数据上报到数据中心。对这个数据传输机制的要求包括:  可靠投递  数据触发  数据路由  数据压缩  数据识别  性能管理与监控 * OLAP维度设计 4.数据集市设计 卷 烟 销 售 维 度 示 例 实质:构建多维立方体 * 典型的OLAP分析 4.数据集市设计 切片 切块 旋转 地域 年份 卷烟 年份 地域 卷烟 对某一年份所有地域

文档评论(0)

wxc6688 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档