2023年电子AI系列专题报-AI大语言模型的原理、演进及算力测算.pptx

下载文档

3
0
约1.58万字
约 30页
2023-09-26 发布于湖北
举报
版权申诉
保障服务

2023年电子AI系列专题报-AI大语言模型的原理、演进及算力测算.pptx

1、本文档共30页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

电子AI+系列专题报告（一）AI大语言模型的原理、演进及算力测算目录人工智能、机器学习与神经网络简介01Transformer模型结构分析0203大规模语言模型算力需求测算（以GPT- 3 为例）产业链相关公司0405风险提示一、人工智能、机器学习与神经网络简介机器学习是实现人工智能的途径之一l 人工智能（Artificial Intelligence，AI）是研究、开发用于模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的门新的技术科学。人工智能的最终目标是使计算机能够模拟人的思维方式和行为。l 机器学习（Machine Learning，ML）是实现人工智能的一种途径，是一门专门研究计算机如何模拟或实现人类的学习行为、以获取新的知识或技能、重新组织已有的知识结构使之不断改善自身性能的学科。l 机器学习包括数据、模型、算法三要素。从实践上来看，机器学习是在大数据的支撑下，通过各种算法让机器对数据进行深层次的统计分析以进行“自学”（训练模型），使人工智能系统获得了归纳推理和决策能力。机器学习作为一套数据驱动方法，已广泛应用于数据挖掘、自然语言处理、机器视觉、搜索引擎、医学诊断、Th物特征识别、DNA序列测序、证券市场分析等领域。图：机器学习训练与推理示意图图：机器学习三要素模型及数据规模增加有利于提高深度神经网络性能l 深度学习（Deep Learning，DL）是机器学习的子集，由人工神经网络（ANN）组成。深度学习模仿人脑中存在的相似结构，其学习是通过相互关联的“神经元”的深层的、多层的“网络”来进行的。l 典型的神经网络从结构上可以分为三层：输入层、隐藏层、输出层。其中，输入层（input layer）是指输入特征向量；隐藏层（hidden layer）是指抽象的非线性中间层；输出层（output layer）是指输出预测值。深层神经网络即包含更多隐藏层的神经网络。l 相比于传统机器学习模型，深度学习神经网络更能在海量数据上发挥作用。若希望获得更好的性能，不仅需要训练一个规模足够大的神经网络（即带有许多隐藏层的神经网络，及许多参数及相关性），同时也需要海量的数据支撑。数据的规模及神经网络的计算性能，需要有强大的算力作为支撑。图：不同深度的神经网络模型结构示意图图：不同神经网络模型在不同数据量下性能曲线CNN和RNN是常见的神经网络模型l 传统常见的神经网络模型包括卷积神经网络（CNN）和循环神经网络（RNN）等。其中，卷积神经网络（Convolutional Neural Network，CNN）多用于计算机视觉、自动驾驶、人脸识别、虚拟现实、医学领域、人机交互、智能安防等图像应用；相比于标准神经网络，CNN能够更好地适应高纬度的输入数据，卷积设计有效减少了模型的参数数量。l 循环神经网络（Recurrent Neural Network，RNN）常用于处理序列数据（例如含有时间成分的音频和文本），获取数据中的时间依赖性。由于语言（无论是英语字母还是汉语汉字）都是逐个出现的，同时语言是时序前后相互关联的数据，因此语言作为最自然表达出来的序列数据，适合应用RNN进行语音识别、情感分类、机器翻译、语言Th成、命名实体识别等应用。l 循环神经网络（RNN）曾是自然语言处理的首选解决方案。RNN能够在处理单词序列时，将处理第一个词的结果反馈到处理下一个词的层，使得模型能够跟踪整个句子而非单个单词。但RNN存在缺点：由于这种串行结构，RNN无法对于长序列文本进行有效处理，甚至可能当初始单词过远时“遗忘”相关信息。图：循环神经网络示意图图：卷积神经网络示意图二、Transformer模型结构分析Transformer模型以Encoder-Decoder架构为基础l 《Attention is all your need》 by OpenAI图：Transformer模型介绍l 作为与传统的CNN、RNN不同的深度学习模型架构，Transformer模型最初是被用于基于上下文的机器翻译模型。由于Transformer模型非串行结构，能够并行处理整个序列；同时引入“注意机制”（attention），能够在文本序列中正向和反向地跟踪单词之间的关系，适合在大规模分布式集群中进行训练。l Transformer以Encoder-Decoder架构为基础。其中，编码组件由多层编码器（Encoder）组成。解码组件也是由相同层数的解码器（Decoder）组成。Encoder用于提取源端语言的语义特征，而用Decoder提取目标端语言的语义特征，并Th成相对应的译文。l Transformer模型具有能够并行运算、关注上下文信息、表达能力强等优势。图： Transformer以Encoder-Decoder架构为基础图