- 1、本文档共30页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
电子AI+系列专题报告(一)AI大语言模型的原理、演进及算力测算目录人工智能、机器学习与神经网络简介01Transformer模型结构分析0203大规模语言模型算力需求测算( 以GPT- 3 为例)产业链相关公司0405风险提示一、人工智能、机器学习与神经网络简介机器学习是实现人工智能的途径之一l 人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的 门新的技术科学。人工智能的最终目标是使计算机能够模拟人的思维方式和行为。l 机器学习(Machine Learning,ML)是实现人工智能的一种途径,是一门专门研究计算机如何模拟或实现人类的学习行为、以获取新的知识或技能、重新组织已有的知识结构使之不断改善自身性能的学科。l 机器学习包括数据、模型、算法三要素。从实践上来看,机器学习是在大数据的支撑下,通过各种算法让机器对数据进行深层次的统计分析以进行“自学”(训练模型),使人工智能系统获得了归纳推理和决策能力。机器学习作为一套数据驱动方法,已广泛应用于数据挖掘、自然语言处理、机器视觉、搜索引擎、医学诊断、Th物特征识别、DNA序列测序、证券市场分析等领域。图:机器学习训练与推理示意图图:机器学习三要素模型及数据规模增加有利于提高深度神经网络性能l 深度学习(Deep Learning,DL)是机器学习的子集,由人工神经网络(ANN)组成。深度学习模仿人脑中存在的相似结构,其学习是通过相互关联的“神经元”的深层的、多层的“网络”来进行的。l 典型的神经网络从结构上可以分为三层:输入层、隐藏层、输出层。其中,输入层(input layer)是指输入特征向量;隐藏层(hidden layer)是指抽象的非线性中间层;输出层(output layer)是指输出预测值。深层神经网络即包含更多隐藏层的神经网络。l 相比于传统机器学习模型,深度学习神经网络更能在海量数据上发挥作用。若希望获得更好的性能,不仅需要训练一个规模足够大的神经网络(即带有许多隐藏层的神经网络,及许多参数及相关性),同时也需要海量的数据支撑。数据的规模及神经网络的计算性能,需要有强大的算力作为支撑。图:不同深度的神经网络模型结构示意图图:不同神经网络模型在不同数据量下性能曲线CNN和RNN是常见的神经网络模型l 传统常见的神经网络模型包括卷积神经网络(CNN)和循环神经网络(RNN)等。其中,卷积神经网络(Convolutional Neural Network,CNN)多用于计算机视觉、自动驾驶、人脸识别、虚拟现实、医学领域、人机交互、智能安防等图像应用;相比于标准神经网络,CNN能够更好地适应高纬度的输入数据,卷积设计有效减少了模型的参数数量。l 循环神经网络(Recurrent Neural Network,RNN)常用于处理序列数据(例如含有时间成分的音频和文本),获取数据中的时间依赖性。由于语言(无论是英语字母还是汉语汉字)都是逐个出现的,同时语言是时序前后相互关联的数据,因此语言作为最自然表达出来的序列数据,适合应用RNN进行语音识别、情感分类、机器翻译、语言Th成、命名实体识别等应用。l 循环神经网络(RNN)曾是自然语言处理的首选解决方案。RNN能够在处理单词序列时,将处理第一个词的结果反馈到处理下一个词的层,使得模型能够跟踪整个句子而非单个单词。但RNN存在缺点:由于这种串行结构,RNN无法对于长序列文本进行有效处理,甚至可能当初始单词过远时“遗忘”相关信息。图:循环神经网络示意图图:卷积神经网络示意图二、Transformer模型结构分析Transformer模型以Encoder-Decoder架构为基础l 《Attention is all your need》 by OpenAI图:Transformer模型介绍l 作为与传统的CNN、RNN不同的深度学习模型架构,Transformer模型最初是被用于基于上下文的机器翻译模型。由于Transformer模型非串行结构,能够并行处理整个序列;同时引入“注意机制”(attention),能够在文本序列中正向和反向地跟踪单词之间的关系,适合在大规模分布式集群中进行训练。l Transformer以Encoder-Decoder架构为基础。其中,编码组件由多层编码器(Encoder)组成。解码组件也是由相同层数的解码器(Decoder)组成。Encoder用于提取源端语言的语义特征,而用Decoder提取目标端语言的语义特征,并Th成相对应的译文。l Transformer模型具有能够并行运算、关注上下文信息、表达能力强等优势。图: Transformer以Encoder-Decoder架构为基础图
文档评论(0)