通信行业专题报告开源竞速_AI大模型的“Linux时刻”降临.docxVIP

下载本文档

2
0
约1.56万字
约 32页
2023-07-16 发布于中国
举报
版权申诉

通信行业专题报告开源竞速_AI大模型的“Linux时刻”降临.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

通信行业专题报告开源竞速_AI大模型的“Linux时刻”降临 1 引言 1.1 “谷歌和 OpenAI 都没有护城河，大模型门槛正被开源巴季” “除非谷歌和 OpenAI 出现发生改变态度，挑选出和开源社区合作，否则将被后者替代”，据彭博和 SemiAnalysis 报导，4 月初，谷歌工程师 Luke Sernau 发文则表示，在人工智能大语言模型（Large Language Models，LLM，以下简写“大模型”）赛道，谷歌和 ChatGPT 的发推出方 OpenAI 都没有护城河，开源社区正在赢得竞赛。这一论调并使公众对“年初 Meta 开源大模型 LLaMA 后，大模型大量出现”现象的高度高度关注发推向了高潮，资本市场也在高度高度关注大公司闭源多功能模型和开源大模型谁能赢得竞争，在“模型”“算力”“数据”三大关键要素中，大模型未来竞争格局如何，模型小了是否就不再仍须大量算力，数据在其中又饰演了什么角色？……本报告企图剖析这波开源大模型风潮的共同点，总结开源标杆 Linux 的发展史，回答以上问题，展望未来大模型的未来。 1.2 开源大模型集中出现，可说是风潮 2 月 24 日，Meta 发布 LLaMA 开源大模型，此后，市场集中涌现出一批大模型，大致可以以分为三类。 1.2.1 “LLaMA 系则”：整体整体表现不好，但商用化程度低 LLaMA 涵盖四个相同的参数版本（70 亿/130 亿/330 亿/650 亿），不大力支持商用，指令数据集基于 OpenAI，模型整体整体表现可以与 GPT-3 持平或优于 GPT-3。其中，70 亿和 130 亿参数版具备囊括 1 万亿个标识符（Token）的预训练数据集；330 亿和 650 亿参数版具备纸盒不不含 1.4 万亿个标识符的预训练数据集。在与 GPT-3 的对照中，LLaMA-70 亿参数版在常辩推理小说任务、零样本任务、自然问题和文学创作心智中的整体整体表现与 GPT-3 水平相当，而 130 亿参数及更高参数的版本模型在以上领域的整体整体表现均优于 GPT-3。 LLaMA 模型本身没有使用指令数据集，但考虑到效果优于 GPT-3 的 ChatGPT 使用了人类指令数据集，一批开源大模型在 LLaMA 模型基础上，使用了 OpenAI 指令数据区锡索优化模型的整体整体表现，涵盖 Alpaca、GPT4All、Vicuna、Koala、Open Assistant 和 Hugging Chat。由于 OpenAI 指令数据集不容商用，因此这批基于 LLaMA 的开源大模型也都不容商用。 1.2.2 Dolly2.0、RedPajama、StableLM 等：商用化程度高这些大模型没有使用 OpenAI 指令数据集，因此可以商用，但大多数还在持续研发中。 1.2.3 中文双子星：ChatGLM-6B 和 MOSS ChatGLM-6B 和 MOSS 分别由清华大学和复旦大学有关研究团体面世，在中文社区知名度较低。 2 共同点一：始于开源 2.1 为什么必须开源？市场对开源大模型的关键问题就是，为什么必须开源，这是否可以损坏大模型行业的商业模式。我们剖析了部分大模型对开源原因的回忆起，总结如下。 2.1.1 模型视角：防止大公司寡头寡头垄断，扫清商业停止使用管制为了并使人工智能研究民主化，消解对外开放模型和半封闭模型之间的质量差距，扫清商业化弛用管制，开源大模型的蓬勃发展料促进以上目标。 2.1.2 数据视角：保护企业机密，并使订做化数据训练变成可能将将保证数据隐私，允许企业订做化研发。对于许多行业而言，数据就是企业的命脉，大模型的开源并使企业可以将自己的数据集在大模型上进行训练，同时重实效对数据的掌控，和易护企业数据隐私。同时，开源大模型允许企业的开发人员在模型的基础上进行订做伤处刊发，定向训练数据，也可以针对某些主题进行过滤器，减少模型体量和数据的训练成本。 2.1.3 算力视角：增加算力成本，并使小模型的使用“普惠化” 开源大模型节省了训练阶段的算力消耗，为企业增加算力成本，推动大模型使用“普惠化”。算力总需求=场景数*单场景算力市场需求。在大模型的训练和使用中，算力消耗分为两部分场景，即为为训练成本消耗及推理小说成本消耗。就训练成本而言，大模型的训练成本高，普通企业的算力资源难以承受，而开源大模型主要节省了企业进度表训练阶段的算力。但由于相同垂类的训练场景更加多样，所以整体训练市场需求就是快速增长的。就推理小说成本而言，大模型在参数体量非常大的情况下，其推理小说成本也很高，普通公司难以维持其日常支出，因此，增加模型参数体量可以进而增加企业在使用模型时的发推理成