罗璇-RWKV，开源模型架构，不一定是Transformer.pdf

下载文档

2
0
约9.88千字
约 50页
2024-10-25 发布于山东
举报
版权申诉
保障服务

罗璇-RWKV，开源模型架构，不一定是Transformer.pdf

1、本文档共50页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

开源模型架构，

不⼀定是Transformer

演讲⼈：罗璇

元始智能/COO

罗璇，多年“AI+机器⼈”产研经验

RWKV

元始智能联创COO前C轮机器⼈公司联创前阿⾥AILab产品总监

⼤模型的现状

很热闹不赚钱

（除了英伟达）

⽬录

CONTENTS

01Transformer的崛起与挑战02回顾RNN发展

03RWKV社区04RWKV开发者的实践

Transformer

崛起和挑战

✨⼤模型的历史

前神经⽹络-神经⽹络-⼤模型

Transformer迅速占据优势地位

Transformer相⽐RNN的优势

解决了RNN的核⼼问题

⾃注意⼒并⾏性

Transformer不使⽤隐藏状态来捕获Transformer通过在训练期间启⽤并

数据序列的相互依赖性。相反，它们⾏性来解决RNN⾯临的梯度问题。

使⽤⾃注意⼒头来并⾏处理数据序通过同时处理所有输⼊序列，

列。这使Transformer能够使⽤⽐Transformer不受反向传播限制，因

RNN更短的时间训练和处理更⻓的为梯度可以⾃由流向所有权重。

序列。

它们还针对并⾏计算进⾏了优化，图

借助⾃注意⼒机制，Transformer可形处理单元（GPU）为⽣成式⼈⼯智

克服RNN⾯临的内存限制和序列相能开发提供了这种优化。并⾏性使转

互依赖性。Transformer可以并⾏处换器能够通过构建更⼤的模型来⼤规

理数据序列，并使⽤位置编码来记住模扩展和处理复杂的NLP任务。

每个输⼊与其他输⼊的关系。

Transformer的应⽤场景

⾃然语⾔处理推荐系统多模态⽣物信息学

⾃动摘要⽤户⾏为序列模型⽬标检测蛋⽩质⽣成

机器翻译⽤户短期兴趣模型视频追踪基因语⾔模型

⽂本分类图像语义分割

多轮对话流式语⾳识别

Transformer⾯临的挑战

算⼒需求巨⼤，Scaling-law失效

回顾RNN发展

RNN是什么

循环神经⽹络（RNN）是⼀种深度学习模型，

经过训练后，可以处理顺序数据输⼊，并将其转换为特定的顺序数据输出

您可能关注的文档

文档评论（0）

150****8957 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

罗璇-RWKV，开源模型架构，不一定是Transformer.pdf