大数据平台数据治理和挖掘建设方案.ppt

大数据平台数据治理和挖掘建设方案.ppt

  1. 1、本文档共111页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * 参考文献: 《DAMA数据管理知识体系指南》 * 参考文献: 《DAMA数据管理知识体系指南》 * 参考文献: 《DAMA数据管理知识体系指南》 * 参考文献: 《DAMA数据管理知识体系指南》 * * 大数据安全与隐私 * 部分漏洞 变通方案 HDFS没有授权系统,注册用户可以在群中读写任何数据 Hadoop注册用户通过“whoami”命令访问,这是不安全的 Hbase没有访问控制,Hadoop群中任何工作运行均可以访问群中任何数据 …… 不要在Hadoop中存储任何敏感数据 对敏感数据进行加密,包括隐藏文本和非结构欧化领域的内容 将每个数据置于自己的群中,以便用户仅可以访问被授权的数据 …… Hadoop是一项新技术,我们预计随着大公司和供应链的介入,上述问题将被得到解决。 04 大数据质量管理平台 数据质量管理平台技术架构 数据质量检查规则执行模块作为多个ETL任务部署在工商数据平台ETL服务器上,由Automation工作流调度服务统一调度运行,实现各个数据区技术和业务数据质量检查 数据质量管理系统元模型包含检查规则、检查执行结果、分析报告,模型作为一个独立的Schema部署在决策分析报表平台的数据库 数据质量检查规则配置模块作为Java Web应用部署在工商数据平台Tomcat集群上,数据质量管理员通过统一的Web服务访问,实现检查规则的维护 数据质量分析报告展现模块作为Java Web应用部署在工商数据平台Tomcat集群上,用户通过统一的Web服务访问,实现日报、月报的浏览、下载等功能 数据质量分析报告生成模块作为一个ETL任务部署在决策分析报表平台ETL服务器上,由Automation工作流调度服务统一调度运行,按照每日、每月生成各数据区数据质量检查报告 数据质量管理平台以元信息模型为核心,由规则配置管理模块、检查执行模块、分析报告生成模块和分析报告展现模块四部分构成。 整个数据质量检查过程以ETL任务的形式统一调度执行。 数据质量检查执行服务 数据质量管理的规则执行服务作为ETL任务部署在ETL服务器上 在整个数据处理过程中,设置4类检查点 在不同的检查点由Task Automation工作流统一调度执行 检查结果统一存入数据质量管理资料库 1 2 3 4 检查规则执行服务检查点1 云数据推送平台接口文件级规范性检查任务说明 任务类型 ETL 任务 —— 技术型检查 ETL阶段 云数据推送平台-工商数据交换平台NAS存储指定目录 执行频率 每日执行 执行方式 由Task Automation工作流引擎根据工作流定义统一调度,在ETL 服务器上执行 检查对象 云数据推送平台按照接口规范导出的业务系统每日增量数据文件和控制文件 检查内容 接口文件是否存在,接口文件名称是否正确,接口文件是否通过MD5校验 实现技术 Linux脚本语言,Perl或Python 成功阈值 所有规则通过检查 依赖任务 N/A 触发任务 数据加载 检查规则执行服务检查点2 临时区数据技术性检查任务说明 任务类型 ETL 任务 —— 技术型检查 ETL阶段 临时数据区-贴源整合数据区 执行频率 每日执行 执行方式 由Task Automation工作流引擎根据工作流定义统一调度,在Hadoop集群上执行 检查对象 云数据推送平台按照接口规范导出的业务系统每日增量数据 检查内容 日期、时间格式检查;主键唯一型检查;外键参照完整型检查;关键字段取值完整性检查 实现技术 Hive SQL 成功阈值 90%记录通过检查 异常处理 未通过检查的记录存入指定错误明细表 依赖任务 接口文件级规范性检查任务 触发任务 贴源数据整合任务 检查规则执行服务检查点3 汇总区业务性检查任务内容说明 任务类型 ETL 任务 —— 业务型检查 ETL阶段 贴源整合数据区-汇总数据区 执行频率 每日/月/季执行 执行方式 由Task Automation工作流引擎根据工作流定义统一调度,在Hadoop集群上执行 检查对象 汇总数据区的数据 检查内容 业务逻辑检查:通过对若干个汇总值/指标值的运算,来检验各个汇总值/指标间潜在的平衡或其他比较关系 实现技术 Hive SQL 成功阈值 90%记录通过检查 异常处理 未通过检查的记录存入指定错误明细表 依赖任务 贴源整合数据区数据处理完成 触发任务 集市数据区应用数据生成 检查规则执行服务检查点4.1 应用集市区技术性检查任务内容说明 任务类型 ETL 任务 —— 业务型检查 ETL阶段 汇总数据区-应用集市数据区 执行频率 每日/月/季执行 执行方式 由Task Automation工作流引擎根据工作流定义统一调度,在应用集市数据库集群上执行 检查对象 应用集市数据区的数据 检查内容 主键唯一型检查;外键参照完

您可能关注的文档

文档评论(0)

数字化建设方案 + 关注
实名认证
内容提供者

网络信息安全工程师持证人

挺好!

领域认证该用户于2024年05月10日上传了网络信息安全工程师

1亿VIP精品文档

相关文档