生成式人工智能基础课件第3章大语言模型技术.pptx

下载文档

0
0
约1.13万字
约 78页
2025-07-03 发布于山东
举报
版权申诉
保障服务

生成式人工智能基础课件第3章大语言模型技术.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

;;本章介绍大语言模型（LLM）及其相关技术的核心原理、应用和挑战。LLM通过深度学习和Transformer架构，能够理解和生成自然语言，它被广泛应用于聊天机器人、翻译、教育、科研等领域，但其训练成本高且易接收数据偏见。本章探讨了LLM的关键技术，如词元标记化、词嵌入、预训练与微调等，解释其如何通过上下文关联和优化算法实现高效的语言处理。;此外，本章还介绍了生成对抗网络（GANs）、变分自编码器（VAEs）和流模型等生成模型的原理与应用，展示它们在图像生成、风格迁移、文本生成等任务中的独特价值。最后，聚焦于LLM的幻觉问题，分析了幻觉的成因以及缓解方法，强调数据质量、训练策略和推理机制对提升模型可靠性和准确性的关键作用。;;PART01;基于深度学习技术，特别是Transformer网络架构的广泛应用，LLM通过学习海量文本数据，模仿人类语言的复杂性，极大提升了AI技术的能力，使得机器能够更准确地理解、生成和交互自然语言，其工作原理涉及复杂的数学模型、优化算法以及对伦理和社会影响的深刻考量。LLM不仅推动了聊天机器人、智能客服、自动翻译、内容创作等领域的技术革新，还为新兴技术如语音识别、虚拟助理等提供了强大的技术支持，创造更多商业价值，对社会经济、文化教育、科学研究等多个领域产生了重要影响。;LLM容易吸收训练数据中的偏见，因此在数据选择和模型使用上需要特别注意伦理问题，努力减少偏见和歧视。随着技术的发展，LLM也在不断进化，持续学习机制和更高效的学习算法被研究，以提高模型的适应性和效率。;在语言模型中，“tokens”是指单词、单词部分（称为子词）或字符转换成的数字列表。每个单词或单词部分都被映射到一个特定的数字表示，称为词元（token）。这种映射关系通常是通过预定义的规则或算法完成的，不同的语言模型可能使用不同的标记化方案，但重要的是要保证在相同的语境下，相同的单词或单词部分始终被映射到相同的

词元。

图3-1相同的单词始终被映射到相同的词元;大多数语言模型倾向于使用子词标记化，因为这种方法高效灵活。子词标记化能够处理单词的变形、错字等情况，从??更好地识别单词之间的关系。;LLM的训练需要极高的计算资源，包括大量的GPU（图形处理器）或TPU（张量处理器），以及相应的能源消耗，这也是其发展的一个重要考量因素。如今，最常见的商业系统是在数千台强大处理器上同时训练数周，耗资达数百万美元。这些程序通常被称为“基础模型”，

具有广泛的适用性和长期使用寿命，它们可以

用作为许多不同类型专业LLM的基础，尽管直

接与它们交互也是完全可能的。

图3-2训练基础模型;LLM在完成了对大型文本语料库的“基础训练”后，就要进入调整阶段。这包括向它提供一系列示例，说明它应该如何礼貌地和合作地回答问题（响应“提示”），以及最重要的是，它不允许说什么（当然，这反映了其开发者的态度和偏见的价值判断）。初始训练步骤大多是自动化过程，这个社交化步骤是通过所谓的人类反馈强化学习（RLHF）来完成的。人类审查LLM对一系列可能引起不当行为的提示的反应，然后帮助LLM做出改进。;完成训练后，LLM接受使用者的提示或问题作为输入，对其进行转换并生成一个回应。与训练步骤相比，这个过程快速而简单，但它是如何将输入转换为回应的呢？模型将这种“猜测下一个词”的技术扩展到更长的序列上。重要的是，要理解分析和猜测实际上不是在词本身进行的，而是在所谓的标记上进行的——它们代表词的一部分，并且这些标记进一步以“嵌入”形式表达，旨在捕捉它们的含义。;LLM首先使用词嵌入技术将文本中的每个词汇转化为高维向量，确保模型可以处理连续的符号序列。这些向量不仅编码了词汇本身的含义，还考虑了语境下的潜在关联。

将每个单词表示为一种特定形式的向量（列表），称为嵌入。嵌入将给定的单词转换为具有特殊属性的向量（有序数字列表）：相似的单词具有相似的向量表示。想象一下，“朋友”“熟人”“同事”和“玩伴”这些词的嵌入。目标是，嵌入应该将这些单词表示为彼此相似的向量，通过代数组合嵌入来促进某些类型的推理。;单词嵌入的一个缺点是它们并不一定解决多义性问题——单词具有多个含义的能力。处理这个问题有几种方法。例如，如果训练语料库足够详细，单词出现的上下文将倾向于聚合成统计簇，每个簇代表同一个单词的不同含义。这允许LLM以模棱两可的方式表示单词，将其与多个嵌入相关联。多义性的计算方法是一个持续研究的领域。;当你想知道一个词的含义时，你可能会查字典。在字典里，你会找到用词语表达的关于词义的描述，读了定义后你理解了一个词的含义。换句话说，就是，通过与其他单词的关系来表示单词的含义，通常被认为是语义的

您可能关注的文档

文档评论（0）

balala11 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

生成式人工智能基础课件第3章大语言模型技术.pptx