大语言模型通识微课课件：开发流程与数据组织.pptx

下载文档

0
0
约3.27千字
约 22页
2024-10-12 发布于山东
举报
版权申诉
保障服务

大语言模型通识微课课件：开发流程与数据组织.pptx

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、本文档共22页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

;大语言模型如此重要，是因为：

（1）高准确性：随着模型参数的增加，模型通常能更好地学习和适应各种数据，从而提高其预测和生成的准确性。

（2）多功能性：大模型通常更为通用，能够处理更多种类的任务，而不仅限于特定领域。

（3）持续学习：大模型的巨大容量使其更适合从持续的数据流中学习和适应新知识。;所谓大模型开发，是指建设以大模型为功能核心、通过其强大的理解能力和生成能力、结合特殊的数据或业务逻辑来提供独特功能的应用。开发大模型相关应用，其技术核心虽然在大模型上，但一般通过调用API或开源模型来实现理解与生成，通过提示工程来实现大模型控制，因此，大模型开发更多的是一个工程问题。

图6-2大模型开发要素;大模型开发，是将大模型作为一个调用工具，通过提示工程、数据工程、业务逻辑分解等手段来充分发挥大模型能力，适配应用任务。因此，初学者并不需要深入研究大模型内部原理，而更需要掌握使用大模型的实践技巧。

在大模型开发中，尝试用提示工程来替代子模型的训练调优，通过提示链路组合来实现业务逻辑，用一个通用大模型+若干业务提示来完成任务，从而将传统的模型训练调优转变成了更简单、轻松、低成本的提示设计调优。;同时，在评估思路上，大模型开发与传统人工智能开发有质的差异。

传统AI评估

LLM评估

图6-3大模型开发与传统人工智能开发的不同;通常将大模型开发分解为以下几个流程。

图6-4大模型开发流程;（1）确定目标。开发目标即应用场景、目标人群、核心价值。对于小型团队，应先设定最小化目标，从构建最小产品开始，逐步完善和优化。

（2）设计功能。设计应用所要提供的功能以及每一个功能的大体实现逻辑。越清晰、深入的业务逻辑理解往往能带来更好的提示效果。对于小型团队来说，应先确定应用的核心功能，然后延展其上下游功能。

（3）搭建整体架构。需要针对所设计的功能，搭建项目的整体架构，实现从用户输入到应用输出的全流程贯通。可以基于LangChain进行个性化定制，实现从用户输入到数据库再到大模型最???输出的整体架构连接。;（4）搭建数据库。需要收集数据并进行预处理，再向量化存储到数据库中。数据预处理包括从多种格式向纯文本的转化，以及对错误数据、异常数据、脏数据进行清洗。

（5）提示工程。优质的提示对大模型能力具有极大影响。首先明确提示设计的一般原则及技巧，构建出一个源于实际业务的小型验证集，以此来满足基本要求、具备基本能力的提示。

（6）验证迭代。通过不断发现坏的情况并针对性改进提示工程来提升系统效果、应对边界情况，从而不断迭代优化，基本实现目标的提示版本。;（7）前后端搭建。接下来，设计产品页面，让应用上线成为产品。前后端开发是非常经典且成熟的领域，有两种快速开发演示的框架。

（8）体验优化。接下来需要进行长期的用户体验跟踪，记录坏情况，与用户负反馈，再针对性进行优化即可。;在设计、研发、运行的过程中，大模型面临的主要挑战如下。

（1）计算资源：训练和运行大模型需要大量的计算资源，这可能限制了许多机构和研究者使用它的能力。

（2）环境影响：大规模模型的训练对能源的需求是巨大的，可能会对环境造成负面影响。

（3）偏见和公正性：由于大模型通常从大量的互联网文本中学习，它们可能会吸收并再现存在于这些数据中的偏见。

大模型的研发流程涵盖了从数据采集到模型训练的多个步骤。;（1）数据采集：是大模型项目的起点，根据训练需求收集大量数据。这些数据可以有多种来源，如公开的数据集、公司内部的数据库、用户生成的数据、传感器数据等。数据的类型可以多样，包括图像、文本、声音、视频等。

主要内容包括：定义数据需求、找到数据源、数据收集、数据存储、检查数据质量、数据整理。

这是一个持续的过程。在整个数据采集过程中，需要关注数据的质量和一致性，同时也要注意遵守数据隐私和安全的相关规定。;（2）数据清洗和预处理。原始数据可能含有噪声、缺失值、错误数据等，所以进行清洗。清洗后的数据要进行一系列预处理操作，如归一化、编码转换等，使其适合输入到模型中。

主要内容包括：数据质量检查、处理缺失值、处理重复值、处理异常值、数据转换。

进行数据清洗和预处理时，需要对数据有深入的理解，以便做出最好的决策。;（3）数据标注：主要用于监督学习任务，是一项为原始数据添加元信息的工作，以帮助大模型更好地理解和学习数据。

主要内容包括：制定标注规范、选择或开发标注工具、进行数据标注、质量检查、反馈和修正。

高质量标注数据对训练出高性能的机器学习模型至关重要。因此，尽管这是一个复杂和耗时的过程，但投入在这个过程中的努力会得到回报。;（4）数据集划分：数据通常被划分为训练集、验证集和测试集。这是大模型项目中的一个重要步骤，可以

您可能关注的文档

文档评论（0）

ning2021 + 关注: 实名认证

内容提供者

中医资格证持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2023年05月10日上传了中医资格证

1亿VIP精品文档

更多 >

大语言模型通识微课课件：开发流程与数据组织.pptx