大语言模型通识微课课件:开发流程与数据组织.pptx

大语言模型通识微课课件:开发流程与数据组织.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

;大语言模型如此重要,是因为:

(1)高准确性:随着模型参数的增加,模型通常能更好地学习和适应各种数据,从而提高其预测和生成的准确性。

(2)多功能性:大模型通常更为通用,能够处理更多种类的任务,而不仅限于特定领域。

(3)持续学习:大模型的巨大容量使其更适合从持续的数据流中学习和适应新知识。;所谓大模型开发,是指建设以大模型为功能核心、通过其强大的理解能力和生成能力、结合特殊的数据或业务逻辑来提供独特功能的应用。开发大模型相关应用,其技术核心虽然在大模型上,但一般通过调用API或开源模型来实现理解与生成,通过提示工程来实现大模型控制,因此,大模型开发更多的是一个工程问题。

图6-2大模型开发要素;大模型开发,是将大模型作为一个调用工具,通过提示工程、数据工程、业务逻辑分解等手段来充分发挥大模型能力,适配应用任务。因此,初学者并不需要深入研究大模型内部原理,而更需要掌握使用大模型的实践技巧。

在大模型开发中,尝试用提示工程来替代子模型的训练调优,通过提示链路组合来实现业务逻辑,用一个通用大模型+若干业务提示来完成任务,从而将传统的模型训练调优转变成了更简单、轻松、低成本的提示设计调优。;同时,在评估思路上,大模型开发与传统人工智能开发有质的差异。

传统AI评估

LLM评估

图6-3大模型开发与传统人工智能开发的不同;通常将大模型开发分解为以下几个流程。

图6-4大模型开发流程;(1)确定目标。开发目标即应用场景、目标人群、核心价值。对于小型团队,应先设定最小化目标,从构建最小产品开始,逐步完善和优化。

(2)设计功能。设计应用所要提供的功能以及每一个功能的大体实现逻辑。越清晰、深入的业务逻辑理解往往能带来更好的提示效果。对于小型团队来说,应先确定应用的核心功能,然后延展其上下游功能。

(3)搭建整体架构。需要针对所设计的功能,搭建项目的整体架构,实现从用户输入到应用输出的全流程贯通。可以基于LangChain进行个性化定制,实现从用户输入到数据库再到大模型最???输出的整体架构连接。;(4)搭建数据库。需要收集数据并进行预处理,再向量化存储到数据库中。数据预处理包括从多种格式向纯文本的转化,以及对错误数据、异常数据、脏数据进行清洗。

(5)提示工程。优质的提示对大模型能力具有极大影响。首先明确提示设计的一般原则及技巧,构建出一个源于实际业务的小型验证集,以此来满足基本要求、具备基本能力的提示。

(6)验证迭代。通过不断发现坏的情况并针对性改进提示工程来提升系统效果、应对边界情况,从而不断迭代优化,基本实现目标的提示版本。;(7)前后端搭建。接下来,设计产品页面,让应用上线成为产品。前后端开发是非常经典且成熟的领域,有两种快速开发演示的框架。

(8)体验优化。接下来需要进行长期的用户体验跟踪,记录坏情况,与用户负反馈,再针对性进行优化即可。;在设计、研发、运行的过程中,大模型面临的主要挑战如下。

(1)计算资源:训练和运行大模型需要大量的计算资源,这可能限制了许多机构和研究者使用它的能力。

(2)环境影响:大规模模型的训练对能源的需求是巨大的,可能会对环境造成负面影响。

(3)偏见和公正性:由于大模型通常从大量的互联网文本中学习,它们可能会吸收并再现存在于这些数据中的偏见。

大模型的研发流程涵盖了从数据采集到模型训练的多个步骤。;(1)数据采集:是大模型项目的起点,根据训练需求收集大量数据。这些数据可以有多种来源,如公开的数据集、公司内部的数据库、用户生成的数据、传感器数据等。数据的类型可以多样,包括图像、文本、声音、视频等。

主要内容包括:定义数据需求、找到数据源、数据收集、数据存储、检查数据质量、数据整理。

这是一个持续的过程。在整个数据采集过程中,需要关注数据的质量和一致性,同时也要注意遵守数据隐私和安全的相关规定。;(2)数据清洗和预处理。原始数据可能含有噪声、缺失值、错误数据等,所以进行清洗。清洗后的数据要进行一系列预处理操作,如归一化、编码转换等,使其适合输入到模型中。

主要内容包括:数据质量检查、处理缺失值、处理重复值、处理异常值、数据转换。

进行数据清洗和预处理时,需要对数据有深入的理解,以便做出最好的决策。;(3)数据标注:主要用于监督学习任务,是一项为原始数据添加元信息的工作,以帮助大模型更好地理解和学习数据。

主要内容包括:制定标注规范、选择或开发标注工具、进行数据标注、质量检查、反馈和修正。

高质量标注数据对训练出高性能的机器学习模型至关重要。因此,尽管这是一个复杂和耗时的过程,但投入在这个过程中的努力会得到回报。;(4)数据集划分:数据通常被划分为训练集、验证集和测试集。这是大模型项目中的一个重要步骤,可以

文档评论(0)

ning2021 + 关注
实名认证
内容提供者

中医资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年05月10日上传了中医资格证

1亿VIP精品文档

相关文档