- 1、本文档共50页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
开源模型架构,
不⼀定是Transformer
演讲⼈:罗璇
元始智能/COO
罗璇,多年“AI+机器⼈”产研经验
RWKV
元始智能联创COO前C轮机器⼈公司联创前阿⾥AILab产品总监
⼤模型的现状
很热闹不赚钱
(除了英伟达)
⽬录
CONTENTS
01Transformer的崛起与挑战02回顾RNN发展
03RWKV社区04RWKV开发者的实践
01
Transformer
崛起和挑战
✨⼤模型的历史
前神经⽹络-神经⽹络-⼤模型
Transformer迅速占据优势地位
Transformer相⽐RNN的优势
解决了RNN的核⼼问题
⾃注意⼒并⾏性
Transformer不使⽤隐藏状态来捕获Transformer通过在训练期间启⽤并
数据序列的相互依赖性。相反,它们⾏性来解决RNN⾯临的梯度问题。
使⽤⾃注意⼒头来并⾏处理数据序通过同时处理所有输⼊序列,
列。这使Transformer能够使⽤⽐Transformer不受反向传播限制,因
RNN更短的时间训练和处理更⻓的为梯度可以⾃由流向所有权重。
序列。
它们还针对并⾏计算进⾏了优化,图
借助⾃注意⼒机制,Transformer可形处理单元(GPU)为⽣成式⼈⼯智
克服RNN⾯临的内存限制和序列相能开发提供了这种优化。并⾏性使转
互依赖性。Transformer可以并⾏处换器能够通过构建更⼤的模型来⼤规
理数据序列,并使⽤位置编码来记住模扩展和处理复杂的NLP任务。
每个输⼊与其他输⼊的关系。
Transformer的应⽤场景
⾃然语⾔处理推荐系统多模态⽣物信息学
⾃动摘要⽤户⾏为序列模型⽬标检测蛋⽩质⽣成
机器翻译⽤户短期兴趣模型视频追踪基因语⾔模型
⽂本分类图像语义分割
多轮对话流式语⾳识别
Transformer⾯临的挑战
算⼒需求巨⼤,Scaling-law失效
02
回顾RNN发展
RNN是什么
循环神经⽹络(RNN)是⼀种深度学习模型,
经过训练后,可以处理顺序数据输⼊,并将其转换为特定的顺序数据输出
您可能关注的文档
最近下载
- 二年下册《平移和旋转》说课.docx
- 2024下半年四川攀枝花市东区招聘事业单位工作人员(7人)笔试备考试题及答案解析.docx
- Unit 3 Yummy food 第1课时(Get ready & Start up)优质课件.pptx VIP
- 制杯不良识别培训(员工)2017920.pdf VIP
- 基于STM32的指纹密码锁设计.docx
- 运河转身——南方城市运河沿线景观提升设计规划方案【城市景观设计】【城市地标设计】.docx
- 海澜之家网络营销策略分析.docx
- 生猪屠宰兽医卫生检验人员理论考试题库及答案.docx
- 抖音商业计划书模板范文.docx
- (2025春新教材)外研版三年级英语下册课件Unit 3(Get ready).pptx VIP
文档评论(0)