- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
银行业外部数据来源众多,对于外部数据的选择缺少统一的量化评价标准,同时数据质量评价和业务场景的结合也并不紧密。针对外部数据的质量问题,本文提出了一种基于先验和后验维度的外部数据质量综合评价模型。通过产业链拓客挖掘模型应用实例,演示先验数据质量维度的实际衡量过程和后验维度中结合业务的自适应调整过程,揭示了外部数据质量综合评价模型在具体业务场景的普适性。
一、课题研究背景
2020年4月,国家印发《关于构建更加完善的要素市场化配置体制机制的意见》,提出数据是与资本、劳动力、土地、技术并列的生产要素,明确了数据在“数字中国”建设中的重要地位。2021年7月,《中共中央国务院关于支持浦东新区高水平改革开放打造社会主义现代化建设引领区的意见》中提出在浦东新区建设上海数据交易所的设想;到2021年11月,该设想已经得到落地实践,上海数据交易所成立当日完成数据产品挂牌20个,涉及通信、金融、交通等八大类。随着越来越多的数据进入规范化的数据市场,如何客观合理地衡量数据质量是数据资产化进程中必须要明确的问题。
针对数据质量评价体系,国内外专家学者主要从四个视角展开研究,分别是产品、平台、用户以及生命周期。产品视角从数据自身的质量出发,考虑其各质量维度的表现,但容易忽视用户的使用需求;平台视角从管理角度出发,评价存储数据对平台性能的影响,但会因数据粒度过大而缺乏可靠性;用户视角从用户的实际使用需求及主观感受出发,评价数据的可用程度,但缺乏客观性;生命周期视角对数据生产、存储、检索、使用等环节进行评估,评价较为全面但存在阶段孤立、难以追踪等问题。
二、数据质量评价体系
对于外部数据,银行需要建立一套完整的数据质量评价体系来决定是否购买并长期使用。针对目前研究中存在的一些问题,本文从先验数据质量和后验数据质量两个维度构建了一套完整的评价体系,前者主要评估数据的内在质量,而后者主要对数据的可用性及业务效益进行评估。
1.先验数据质量维度
先验数据质量维度包括完整性、准确性、唯一性、规范性、及时性和一致性(如图1所示)。其中,完整性用于度量数据的缺失程度,会对数据值、记录、属性或数据模型的完整性进行分析;准确性用于度量数据的准确程度,判断数据值是否出现异常或者是否符合一般的业务逻辑;唯一性用于度量数据的重复程度,判断数据表中是否存在重复的主键及记录或含义相同的属性列;规范性用于度量数据的规范程度,判断数据是否按统一格式存储,是否满足用户定义条件及规范约束等;及时性用于度量数据更新的及时程度,主要对数据的更新速度、频次、覆盖率及时效性进行评判;一致性用于度量数据的关联程度,判断同一个信息主体在不同数据集中的逻辑准确性和完整性。
图1先验数据质量维度
2.后验数据质量维度
后验数据质量维度包括可用性、合理性、业务效益、数据维护(如图2所示)。其中,可用性用于度量数据在使用过程中的可用程度,主要从技术角度对数据的使用情况进行分析,判断该外部数据是否能正确接入内部系统并被正确使用;合理性用于度量数据使用者的主观感受,若使用过程中发现分析结果不符合实际情况,或发现模型未达到预期效果,该外部数据的合理性就可能存在问题;业务效益用于度量数据所能带来的客观价值,例如在使用该外部数据后,拓客业务成功获取多少新客户,风控业务成功挖掘出多少高风险企业等;数据维护用于度量外部数据供应商后续提供的相关服务,如数据对标、数据清洗、数据更新、数据稳定性等。
图2后验数据质量维度
3.数据质量评价模型
(1)各维度得分量化
对于六个先验数据质量维度,若没有特殊要求,可以直接计算没有相关问题的记录在整个数据集中的占比来表示对应维度的得分:
而对于四个后验数据质量维度,可以结合具体业务场景来对得分进行量化。例如,对于可用性,可综合考虑数据对标率、模型准确率等指标;对于合理性,可以根据数据使用者的主观评价,对该维度进行量化得分;对于业务效益,可利用场景的客观业务指标进行评估;对于数据维护,可以综合考虑数据供应商的服务积极性、更新及时性等指标。
(2)先验数据质量维度权重
不同的业务场景在数据质量维度方面是各有侧重的,本文以拓客业务和风控业务为例,提出这两种业务场景下的通用先验数据质量维度权重模型。
拓客业务要求完整且准确的客户信息以及所处的关联网络的信息,如客户的地址、电话号码以及客户间的股权关系等,因此这类业务需要保证数据的完整性和准确性。此外,客户信息更新频率较低,且其规范性对挖掘结果影响不大。因此,可以适当降低对这类业务及时性和规范性的要求。
风控业务要求以最快速度得到准确的风险信息,及时进行风险评估并对抗风险。因此,这类业务需要保证数据的及时性和准确性。此外,对于一条风险信息,不同来源的消息可能存在多条记录,其存储规范可能也并不相同。因此,可以适当降低对这类业务唯一性和规范性的要
文档评论(0)