- 1、本文档共38页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
#领域大模型的挑战与机遇:从构建到应用
01背景预训练语言大模型与大模型时代的知识工程02大模型的领域适配如何构建领域对齐的大模型?03大模型的能力提升如何增强大模型在领域应用中的特别能力?04大模型的协同工作如何让大模型在现有流程中发光发热?目录CONTENT
#01背景
“GiventhebreadthanddepthofGPT-4’scapabilities,webelievethatitcouldreasonablybeviewedasanearly(yetstillincomplete)versionofanartificialgeneralintelligence(AGI)system”
强大的大模型底座知识能力大模型蕴含丰富的世界知识,内涵大量人类常识人工智能之父MeCarthy:尽管自上世纪50年代以来,常识知识一直是科研工作者重点关注的研究领域,但在AI众多的分支中(如:模式识别和推理),该领域是最难解决与突破的分支之一。大模型是否终结了知识工程?
大模型的常识推理能力大模型是目前唯一能利用人类常识进行开放推理的技术现实应用中存在大量变数,不能教条式地机械执行传统常识库较小且难以用于实际推理传统规则系统无法事先事无巨细地列举各种特例规则ConceptNet,过于抽象,难以匹配现实场景年龄错误等潜藏矛盾难以事先制定规则避免从封闭到开放
开放世界的理解能力
大模型Agent可以执行多步复杂任务大模型具备一定的完成复杂任务所需的动作规划与执行能力大模型Agent在Minecraft中自动采集材料、制造工具并最终构建了所有物品GhostintheMinecraft:GenerallyCapableAgentsforOpen-WorldEnvironmentsviaLargeLanguageModelswithText-basedKnowledgeandMemoryOpenAICodeInterpreter可以通过多步编码逐步完成各种复杂任务
大模型在领域落地仍然遇到了诸多挑战推理成本能力缺陷难以协同
大模型的推理成本限制其应用大模型推理需要大量时间、算力成本,使其难以用在大规模重复应用中在实际应用中,大小模型协同、按需使用大模型尤为重要Bert模型,每个句子0.05s以内(3090)百亿模型,每秒10-20个token(3090,使用投机采样)100000个句子需要138h千亿模型,调用API,平均每100个词0.03rmb100000个句子需要3000r和大量时间对于大批量任务,百亿、千亿模型推理成本无法接受文本规模较大,智能要求相对低大模型蒸馏小模型知识抽取需要常识推理,传统模型无法解决必须大模型知识冲突验证需要智能,调用频次较低大模型智能问答
大模型在复杂决策场景仍有缺陷故障排查、疾病诊断、投资决策等严肃应用场景ChatGPT比较好地实现了机器与人类的开放式对话,也就是开放式闲聊然而实际应用场景多需机器的复杂决策能力,复杂决策是领域应用根本特点丰富的应用知识复杂的决策逻辑宏观态势的研判能力综合任务的拆解能力精细严密的规划能力复杂约束的取舍能力未知事物的预见能力不确定场景的推断能力从开放闲聊到复杂决策仍有漫长道路
在ToB应用中需要协同能力和可控性定位:具备各种功能的多功能智能引擎各种企业流程已经定型,目前大模型能力仍不可能直接替代企业整个部门大模型和现有员工现有流程的协同是重中之重如何设计大模型在现有企业流程中的角色?如何往大模型中注入企业私有的内部知识,避免幻觉现象?系统流程设计企业内部知识协同协议和接口如何制定大模型和企业现有流程/工具的接口和协议?如何控制大模型的开放能力,使其稳定以指定协议输???
#02领域适配
领域模型的持续预训练本质上是数据问题相比于训练模型的流程,数据的收集和配比更为重要模型微调方法已经高度同质化和傻瓜化1GB高质量论文vs1TB垃圾网络语料要“高质量”论文模型还是通用网络语言模型?数据选择+数据配比混入通用领域数据以避免灾难性遗忘收集并选择有效的领域知识借助大模型能力进行数据增强借助大模型能力或环境反馈构建数据
行业/领域大模型的持续训练行业大模型炼制数据缺乏选择依据,是否所有行业数据都要加入 训练?样本数量少收集成本高基础模型已经习得是否进行微调不影响模型后续表现太基础,不必要社会保障号码有什么用?买某支股票的流程是什么?太细节,不必要数据多,但知识少(比如实时股价)存在隐私问题公司里面每个人的社会保障号码是多少?实时股价数据是怎样的?行业特有反常识高覆盖形式多样高价值行业数据社会保障号码长什么样子?某股票分析报告?难点
针对异质来源的来源提示增强问题:大模
文档评论(0)