商业银行非结构化数据治理方法初探.docxVIP

商业银行非结构化数据治理方法初探.docx

此“经济”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

当前,浦发银行正全面推进数字化转型,构建数据驱动的经营体系。数据驱动能力提升对数据治理提出了更高的要求。良好的数据治理能够打通企业内部数据壁垒,全面提升数据质量,支撑业务创新发展,加速数据价值释放。随着大数据技术在商业银行的广泛应用,数据作为基础性战略资源的地位日益凸显,但大数据的“4V”特性(巨量性、多样性、快速性、低密性)给传统的数据治理带来挑战,催生出大数据治理,而大数据治理的难点在于非结构化数据的治理。

商业银行非结构化数据主要来源于日常与客户相关的经营活动,如客户在办理业务时产生的身份核查信息和业务凭证影像;客户在购买理财产品、远程开户时按监管要求进行“双录”产生的音频和视频;以及银行系统内记录的日志文件和市场调查等非结构化数据。随着数字化转型战略的实施,客户旅程分析、数据驱动网点重构、智能风控等举措相继落地,需要使用情绪识别、生物识别、OCR、智能语音等AI技术对客户的生物特征、影像资料、语音等非结构化数据进行加工处理,实现“千人千面”客户营销、智能的投资顾问、基于知识图谱的风险共同体识别等应用,这在客观上也对非结构化数据治理提出要求。

2018年5月,银保监会发布了《银行业金融机构数据治理指引》,不仅强调数据质量与安全等方面的治理,而且重视数据应用与数据治理互相促进,通过数据驱动发挥数据价值。本文基于浦发银行现有数据治理成果,探索了非结构化数据治理的方法和实践。

一、非结构化数据治理体系

非结构化数据与业务流程中产生或使用的结构化数据密切关联,例如,一张业务凭证的影像是非结构化数据,但影像中的具体业务要素,如账号是作为结构化数据存储在关系型数据库中的,因此非结构化数据治理与结构化数据治理密切相关,是建立在传统的数据治理基础之上的;从非结构化数据生命周期来看,非结构化数据的产生、应用是与特定的业务场景相关联的,如一段客服中心的音频数据可以从投诉、咨询、电话营销等业务场景中产生,因此非结构化数据治理应该是业务驱动的,即采取业务驱动的数据治理方法。非结构化数据治理框架如图1所示。

图1非结构化数据治理框架

经过十余年的持续建设,浦发银行已建立较为完善的数据治理体系,包括明确数据治理组织架构、开展十大领域数据管理、发布各项规章制度和管理流程以及优化数据治理支撑工具,同时将现有的数据治理模式延伸并覆盖到非结构化数据。业务驱动是推进非结构化数据治理的关键,具体内容包括:以业务流程为主线,根据业务场景开展非结构化数据治理;发挥现有的集中作业优势,使用先进技术手段将非结构化数据转换为结构化数据,重点解决业务主数据的一致性问题;设计非结构化元数据模型,创新应用人工智能的信息提取技术,解析不确定、不易获取(如影音、视频)的非结构化数据内容;建立非结构化数据资产目录,形成业务人员能看懂的数据地图,实现非结构化数据资产业务价值。

二、非结构化数据治理方法

非结构化数据的格式非常多样,标准也是多样的,而且在技术上非结构化信息比结构化信息更难标准化和被理解。例如,一张汇款凭证影像作为非结构化数据存在两类数据标准:一类是影像本身的标准,必须达到200DPI以上(业内实践标准),否则无法进行自动验印;另一类是凭证承载的业务要素,如账号、金额等也必须遵从数据标准。同时,非结构化数据治理是基于SchemaonRead的模式,即在采集各类非结构化数据时不需要定义各种数据库对象。这就导致非结构化数据在“本体”描述方面,即数据本身的定义和格式上无法清晰描述,因此需要为非结构化数据提供分类、语义支持。

目前,业内权威的数据管理理论模型在具体到非结构化数据治理的实践方面,仅具有一般性的指导意义,距离治理的落地实施还有一定的差距。笔者团队通过基于非结构化数据在数据获取、数据存储、数据应用等方面的调研,从实际业务场景出发,归纳总结实际操作过程中的经验和教训,提炼出非结构化数据治理的方法。

1.以业务流程为抓手,在场景中进行数据治理

由于非结构化数据与结构化数据有着紧密的联系,如客户贷款申请的影像资料必然关联一笔贷款业务,需要遵从会计凭证档案管理的相关规定;同时这些影像资料如营业执照、会计报表等记载了丰富的客户信息和财务信息,通过大数据分析,可以从中识别出客户的经营状况、企业间的关联信息,用于担保圈风险识别。因此,需要在业务分析场景中提炼出关键数据,与客户数据进行融合,再以数据服务的方式为全行提供服务,通过开放银行API服务的方式为合作生态圈提供服务。考虑到非结构化数据的海量性且治理成本较高,因此必须在业务流程中识别出业务价值较大的主数据进行治理,获取最大的投资回报。例如,如果客户在柜面填写业务凭证时不规范,账号、户名等主数据超出填写框格,凭证影像在后台集中作业中心进行切片录入时出错,将导致业务处理失败。因此,需要从数据治理的角度提出操作规范,柜员应在审单时

您可能关注的文档

文档评论(0)

丹青 + 关注
实名认证
文档贡献者

锄禾日当午 汗滴禾下土

1亿VIP精品文档

相关文档