大语言模型通识 课件 第6章 大模型的开发组织.pptx

大语言模型通识 课件 第6章 大模型的开发组织.pptx

  1. 1、本文档共81页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

;;人工智能正在成为我们日常生活中不可或缺的一部分。其中,深度学习模型尤其引人注目,而大语言模型更是当下的热门话题(见图6-1)。

图6-1案例:文心大模型全景图;为什么大模型如此重要呢?

(1)高准确性:随着模型参数的增加,模型通常能更好地学习和适应各种数据,从而提高其预测和生成的准确性。

(2)多功能性:大模型通常更为通用,能够处理更多种类的任务,而不仅限于特定领域。

(3)持续学习:大模型的巨大容量使其更适合从持续的数据流中学习和适应新知识。;;PART01;所谓大模型开发,是指建设以大模型为功能核心、通过其强大的理解能力和生成能力、结合特殊的数据或业务逻辑来提供独特功能的应用。开发大模型相关应用,其技术核心虽然在大模型上,但一般通过调用API或开源模型来实现理解与生成,通过提示工程来实现大模型控制,因此,大模型是深度学习领域的集大成之作,大模

型开发却更多的是一个工程

问题。

图6-2大模型开发要素;在大模型开发中,我们一般不会去大幅度改动模型,不会将精力聚焦在优化模型本身上,而是将大模型作为一个调用工具,通过提示工程、数据工程、业务逻辑分解等手段来充分发挥大模型能力,适配应用任务。因此,大模型开发的初学者并不需要深入研究大模型内部原理,而更需要掌握使用大模型的实践技巧。;同时,以调用、发挥大模型作用为核心的大模型开发与传统的人工智能开发在整体思路上有着较大的不同。大模型的两个核心能力:指令理解与文本生成提供了复杂业务逻辑的简单平替方案。在传统的人工智能开发中,首先需要将复杂的业务逻辑进行拆解,对于每一个子业务构造训练数据与验证数据,对于每一个子业务训练优化模型,最后形成完整的模型链路来解决整个业务逻辑。然而,在大模型开发中,尝试用提示工程来替代子模型的训练调优,通过提示链路组合来实现业务逻辑,用一个通用大模型+若干业务提示来完成任务,从而将传统的模型训练调优转变成了更简单、轻松、低成本的提示设计调优。;同时,在评估思路上,大模型开发与传统人工智能开发有质的差异。

传统AI评估

LLM评估

图6-3大模型开发与传统人工智能开发的不同;传统人工智能开发首先需要构造训练集、测试集、验证集,通过在训练集上训练模型、在测试集上调优模型、在验证集上最终验证模型效果来实现性能的评估。然而,大模型开发更敏捷、灵活,一般不会在初期显式地确定训练集、验证集,由于不再需要训练子模型,我们直接从实际业务需求出发构造小批量验证集,设计合理提示来满足验证集效果。然后,不断从业务逻辑中收集提示的坏情况,并将坏情况加入到验证集中,针对性优化提示,最后实现较好的泛化效果。;通常将大模型开发分解为以下几个流程。

图6-4大模型开发流程;(1)确定目标。开发目标即应用场景、目标人群、核心价值。对于个体开发者或小型开发团队而言,一般应先设定最小化目标,从构建一个最小可行性产品开始,逐步进行完善和优化。;(2)设计功能。确定目标后,需要设计应用所要提供的功能,以及每一个功能的大体实现逻辑。虽然通过使用大模型简化了业务逻辑的拆解,但是越清晰、深入的业务逻辑理解往往能带来更好的提示效果。同样,对于个体开发者或小型开发团队来说,先确定应用的核心功能,然后延展设计核心功能的上下游功能;例如,我们想打造一款个人知识库助手,那么核心功能就是结合个人知识库内容进行问题的回答,其上游功能的用户上传知识库、下游功能的用户手动纠正模型回答就是必须要设计实现的子功能。;(3)搭建整体架构。目前,绝大部分大模型应用都是采用特定数据库+提示+通用大模型的架构。需要针对所设计的功能,搭建项目的整体架构,实现从用户输入到应用输出的全流程贯通。一般情况下,推荐基于LangChain框架进行开发,这是一款使用大模型构建强大应用程序的工具,它提供了链(Chain)、工具(Tool)等架构的实现,可以基于LangChain进行个性化定制,实现从用户输入到数据库再到大模型最后输出的整体架构连接。;(4)搭建数据库。个性化大模型应用需要有个性化的数据库来支撑。由于大模型应用需要进行向量语义检索,一般使用诸如chroma向量数据库。在该步骤中,需要收集数据并进行预处理,再向量化存储到数据库中。数据预处理一般包括从多种格式向纯文本的转化,例如pdf、markdown、html、音视频等,以及对错误数据、异常数据、脏数据进行清洗。完成预处理后,需要进行切片、向量化构建出个性化数据库。;向量数据库最早应用于传统人工智能和机器学习场景。大模型兴起后,由于受大模型词元数的限制,很多开发者倾向于

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档