人工智能通识基础 课件项目四、大模型技术.pptxVIP

人工智能通识基础 课件项目四、大模型技术.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大模型技术汇报人:XXX2025-X-XX

大模型技术的发展历程常见的AIGC大模型工具0201大模型基础03目录CONTENTS

大模型基础01

大模型概述大模型本质上是一种大规模的深度神经网络,通过学习海量文本数据来理解和生成人类语言,其主要特征包括层次结构深、参数数量多以及训练数据量大。因此,大模型通常能够捕捉到更细微的模式和规律,展现出更强的泛化能力和表达能力。例如,GPT系列之所以具有里程碑意义,在于其率先实现了Transformer架构的规模化应用。Transformer是一种能够很好地理解文本数据中的长距离依赖关系的神经网络架构,使得GPT模型能够生成高度连贯和上下文相关的语言输出。拥有上亿个参数的GPT模型对自然语言处理领域产生了重大影响。

大模型的优点大模型具有很强的上下文理解能力,能够理解复杂的语义和语境,这使得它们能够产生更准确、更连贯的回答。上下文理解能力强语言生成能力强学习能力强大模型可以生成更自然、更流利的语言,减少生成输出时的错误。大模型能够从海量数据中学习,并借助所学知识和模式,提供更准确的回答和预测,这使得它们在解决复杂问题和应对新场景时表现得更为出色。

大模型预训练过程掩码语言模型。下一个句子预测。掩码(Mask)语言模型是一种基于神经网络的语言模型,它可以在预训练阶段使用海量的未标注语料库进行训练,然后在有监督的任务中进行微调,如文本分类、序列标注等。下一个句子预测(NextSentencePrediction,NSP)是一个常见的自然语言处理任务,这个任务是指给定两个句子A和B,让模型判断B是否是A的下一个句子。这个任务可以让模型学习到语言中的句子关系和连贯性。

Token与大模型Token是文本中一个具有意义的单元,它可以是单词、数字或标点符号。在自然语言处理中,机器学习模型通常以Token作为输入的基本单元,它可以被视为文本的最小组成单位。在自然语言处理中,Token概念至关重要,因为它有助于机器理解自然语言。在传统计算机编程中,我们通常会对输入数据进行格式化处理,以提高计算机的处理效率。常见的大模型是一种基于概率的自回归语言模型(AR模型)。这种模型通过预测文本序列中的下一个Token来生成文本,在训练阶段,模型会依次处理输入序列中的每个Token,并计算下一个Token的概率分布;

大模型技术的发展历程02

大模型技术的出现与发展数据驱动转型21世纪初,随着互联网普及和数据爆炸,机器学习逐渐转向数据驱动,统计方法成为主流,为后续大模型技术奠定了基础。03算力突破与规模化2010年后,GPU等硬件加速技术成熟,深度学习兴起,模型参数量从百万级跃升至十亿级,标志性事件如Transformer架构(2017年)的提出推动了大模型技术的质变。0201早期探索阶段20世纪50年代至90年代,人工智能研究主要集中在符号逻辑和规则系统上,受限于计算能力和数据量,模型规模较小且功能单一。

统计语言模型N-gram模型基于马尔可夫假设,通过统计词序列概率预测下一个词,简单高效但受限于稀疏性和长距离依赖问题。平滑技术采用拉普拉斯平滑、回退算法等解决数据稀疏问题,但无法从根本上捕捉语义和上下文关联。应用局限性主要用于早期机器翻译和语音识别,因缺乏深层语义理解,逐渐被神经网络模型替代。

神经语言模型2003年Bengio提出神经概率语言模型(NNLM),首次用神经网络学习词分布式表示,解决了N-gram的离散性问题。神经网络引入Word2Vec(2013年)和GloVe(2014年)通过无监督学习生成词向量,显著提升语义表征能力。词嵌入技术循环神经网络及其变体(如LSTM)能够处理变长序列,但训练效率低且难以捕捉长程依赖。RNN与LSTM010203

预训练语言模型01.迁移学习范式ELMo(2018年)提出动态词向量,通过预训练+微调模式解决下游任务数据不足问题。02.Transformer革命基于自注意力机制的Transformer架构(如BERT、GPT)实现并行化训练,模型参数量突破亿级,支持多任务统一建模。03.大规模预训练利用海量无标注数据(如CommonCrawl)进行自监督学习,显著提升模型泛化能力,如GPT-3(1750亿参数)展现零样本学习能力。

多模态扩展指令微调与对齐行业应用深化语言大模型CLIP、DALL·E等模型融合文本与图像数据,实现跨模态生成与理解,推动通用人工智能发展。ChatGPT通过RLHF(人类反馈强化学习)优化对话逻辑,使模型行为更符合人类价值观和任务需求。金融、医疗、教育等领域定制化大模型(如BloombergGPT)加速落地,解决垂直场景复杂

文档评论(0)

allen734901 + 关注
实名认证
文档贡献者

副教授持证人

知识共享

领域认证该用户于2024年11月14日上传了副教授

1亿VIP精品文档

相关文档