人工智能项目之大模型知识编辑课题汇报PPT.pptx

下载文档

0
0
约3.81千字
约 34页
2025-12-19 发布于四川
举报
版权申诉
保障服务

人工智能项目之大模型知识编辑课题汇报PPT.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大模型知识编辑项目

Catalogue目录01项目基本情况02项目实施过程03项目成果展示04项目总结05遗留问题

01项目基本情况

项目背景-知识编辑领域概况01随着深度学习与预训练技术的快速发展，大模型在自然语言处理领域已经取得了显著的突破。但是，知识更新的困难以及模型中潜在的知识谬误问题，随着模型参数量变大，更新的成本变得非常高昂，且更新后鲁棒性难以保障。知识编辑通过单个数据点实现对LLM行为的灵活修改，确保编辑的局部性，而不会影响到模型的其他部分。通过此项目：1）可以深入理解大模型知识存储机理；2）实现高效、低成本地大模型知识更新以缓解知识谬误问题；3）擦除模型参数中隐私、有害信息以实现大模型应用安全。03大模型知识编辑的起源与面临的挑战大模型知识编辑的重要意义传统的微调技术是利用特定领域的数据集来更新模型内部的参数知识，本质上是TransferLearning，它只是让模型做了新的任务，并没有新的知识的注入。这存在两个显著的挑战：1.消耗大量资源2.存在灾难性遗忘风险模型定制化传统方法的局限性02

项目目标任务目标：技能提升：学习目标：通过修改大模型中的特定知识以缓解知识谬误问题.知识新增：旨在让大模型习得新知识知识修改：旨在改变已存储在大模型内部的知识知识祛除：旨在让大模型“遗忘”已习得的知识理解大模型知识编辑任务探索大模型知识编辑方法提升大模型知识编辑评测指标鼓励每个团队成员都参与到项目的每个环节，通过项目实践提升技能，提升自我认知

项目计划

02项目实施过程

课题理解-目前流行的知识编辑方法万字长文总结大模型知识编辑领域最新研究进展:/s/exk6R9KC_CrrFjbiz5stLQ

课题理解-知识编辑通用评价指标可靠性(Reliability)：此指标衡量给定编辑实例的平均准确性。泛化能力(Generalization)：编辑应适当影响范围内输入，该指标衡量范围内输入的平均精度。可移植性(Portability)：评估编辑后的知识是否能有效地应用于相关内容。局部性(Locality)：编辑应遵循局部性原则，它评估范围外输入是否可以使基础模型保持不变。流利度(Fluency)：它测量二元和三元熵的加权平均值，以评估文本生成的多样性。效率(Efficiency)：编辑应该节省时间和资源。该指标通过测量编辑时间和VRAM消耗来量化效率。

课题理解-SafeEdit项目内容简介-祛毒任务定义传统的祛毒方法SFT，RLHF，DPO通常需要大量的数据和计算资源，且经过这些方法祛毒后的模型依旧很容易被越狱。本项目探索了使用知识编辑技术为大模型祛毒，防御用户的恶意输入引发的不安全问题，如下图所示:本项目首先构建使用知识编辑进行祛毒的基准SafeEdit，然后提出了一个新基线方法DINM（DetoxifyingwithIntraoperativeNeuralMonitoring-术中神经监测祛毒）。

课题理解成果-SafeEdit项目内容简介-祛毒原理DINM首先找到大模型的毒性区域，然后直接微调更新该区域的参数。需要说明的是，DINM使用一条数据为大模型祛毒，因此定位的时候也只使用一条数据。具体来说，针对一条恶意输入，有对应的安全回复和不安全回复：定位有毒的Layer：假设安全回复和不安全回复在哪层的HiddenState上下文语义差距最大，哪层就是ToxicLayer。修改权重参数W：假设ToxicLayer的MLP就是ToxicRegions（基于以往的研究），然后用该条数据直接且精确地修改位于ToxicRegions的参数（同时受限于一个不相关的问题的问答对）。

分析数据集训练集：4050测试集：100

分析数据集一条数据本项目终极任务定义：

模型选择LLaMA2-7B-hfMeta开发的第二代LLaMA语言模型，具有70亿个参数，并在HuggingFace平台上进行了优化，专注于高效自然语言处理任务。Mistral-7B由MistralAI开发的先进语言模型，拥有70亿个参数，专注于生成高质量和上下文相关的文本。GPT2-XLGPT-2XL是OpenAI开发的一个大型自然语言处理模型，拥有15亿个参数，能够生成连贯且高质量的文本。

模型训练-调用DINM方法核心代码

模型训练-定位有毒层定位有毒层和有毒的权重：ToxicLayerToxicRegion(tobeedited)LLM除了Embedding,有L个transformerlayer输入LLM后，在第l层流出的hiddenstate为是MLP(FFN)中第二个网络的权重，最终控制第l层的输出对于本层输出的