- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
如何打造一个大模型生成的数据目录
今年以来,自己一直在做大模型应用方面的思考,在“智典”应用落地之际,今天就来跟大家分享一下我们在数据目录元数据自动生成方面的探索和实践。
高质量的数据目录是企业高效开发利用数据的基础。经过多年构建的数据治理体系,我们的企业级数据目录已经建立起来。该目录自底向上包含三个层次:数据资源目录、数据资产目录和数据开放目录,各层都对应于数据处理生命周期的不同阶段,纳管的数据资源已经超过2万项。
为了确保数据目录的完整性,设计了40+的标准属性:
围绕企业数据目录,建立起了一套数据目录的闭环管理流程,当前盘点数据的周期已经实现按天自动动态更新,月变更数据超过1000项:
应该来讲,我们已经实现了企业数据目录的从0到1,但随着运营的逐步深入,当前面临着三个方面的挑战:
首先,企业级数据目录覆盖了B/O/M/S四大领域,可是各个领域的数据管理水平参差不齐,源端提供的数据目录的元数据信息缺失严重,而且质量不高,数据目录的完整率仅为10%,字段级的元数据信息准确率不到70%,业务人员看不懂的现象普遍存在,运维人员的咨询服务量大幅增加,制约着企业数据目录价值的发挥。
其次,要维护好企业级数据目录的元数据,需要掌握大量跨领域的专业知识,但我们数据运营团队当前并不具备这个条件。尽管依托于企业级数据治理组织、机制和流程,与其他领域建立了良好的合作关系,但沟通成本还是很高的。特别是当很多知识还掌握在第三方合作伙伴手中时,这个问题更加凸显。
最后,我们采取了多种措施来完善数据目录,包括组织各领域的专家来补充信息,还尝试用众包的方式来吸收公众的智慧。但是,这些方法很依赖于专家们的时间和投入,因此成本非常高。我们估计,要完善数万条数据目录信息,需要数万人天的工作量,并且需要持续的努力。这种方法不仅现实性不高,而且人工维护的数据质量也很难得到保证。
从我的经验看,维护元数据有三种模式:
第一种,后向维护,即等到数据资源开发完成后再补充元数据信息。这种方法不会太干扰正常的生产流程,但代价很大,因为它需要在工作完成后回过头来补充信息,这既费力又难以长期坚持。
第二种,前向录入,即在数据资源开发过程中就开始录入元数据信息。虽然这种方法能从一开始就保证元数据的存在,但它可能会严重拖慢业务流程,因为它要求开发人员在忙于上线产品的同时,还得分心去处理元数据。这几乎没有成功案例,而且即便可行,元数据的质量也很难得到保证。
第三种,自动生成,即尝试自动生成元数据,比如通过代码解析等技术。这听起来很理想,但实际上要求很高,而且很难做到准确和全面,大多数尝试都以失败告终。
我的经验告诉我,维护元数据这种对业务价值间接的工作,必须要考虑性价比。大模型出来后,大家立即想到了基于大模型的能力来完善数据目录的元数据信息的低成本的解决方案,其优势体现在三个方面:
1、打破领域知识壁垒
尽管我们对业务数据有很好的了解,但我们对网络数据(比如接入网、传输网、核心网)的了解就不够全面。幸运的是,大型语言模型擅长处理这种全球通用的知识,这可以帮助我们填补知识上的空白。这是“智典”成功的关键。
2、用通俗的语言诠释
哪怕我们对业务数据再熟悉,如果团队成员无法用简单明了的语言来描述数据,那么元数据就可能会变得模糊不清。大型语言模型能够使用简单、精确并且容易理解的方式来表达专业知识。只需给它足够的上下文信息,它就能生成清晰的摘要。
3、数据目录的自动化
前期我们在数据目录的运营上花费了大量的精力,每次扫描到新的数据资源,不仅要进行元数据信息的补录,还需要业务人员的和管理人员的审核,整个确认流程非常长,人工的大量介入让数据一键入湖的目标迟迟无法实现。
我的目标是让数据自动入湖,不需要人工干预,并且保证数据目录的质量。如果我们能开发出一个基于大模型的元数据生成API,并将其集成到流程中,我们就能实现这个目标。
下面就谈谈具体的做法。
1、选模型
基础大模型的能力决定了“智典”的成败,我们的大模型需要私有化部署,又不可能自己去研发基础大模型,因此前期只能选择开源的方案。而每种开源的基础大模型的能力也是不同的,必须基于特定场景自己去做测试,比如LLAMA2-13B虽然推理能力还可以,但中文能力太差。
因此,我们制定了一个针对数据目录元数据生成的基础大模型的测试方法,从中文理解能力、领域知识理解能力、逻辑推理能力等五个维度出发,对模型的输出结果进行专家打分,选出最佳模型。最终选择了表现最为出色的通义千问模型作为基底大模型,下面是测试结果的示意:
2、备指令
由于企业数据目录涉及公司大量的领域知识,同时对格式等输出也有特定要求,因此我们还是需要在通义千问的基础上进行一定的微调,这就需要建立训练的指令集。我们梳理了存量的数据目录元数据信息、设计了提示词模板,构建了一个拥有6000余条规范
原创力文档


文档评论(0)