- 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
- 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
- 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
LEXFRIDMAN五⼩时播客实录:论中美AI
竞争与国运
这是⼀份对谈的实录《DeepSeek,China,OpenAI,NVIDIA,xAI,TSMC,Stargate,andAI
Megaclusters|LexFridmanPodcast#459》,原视频在这个地⽅:https://www.youtube.
com/watch?v=_1f-o0nqpEIab_channel=LexFridman
在本次对谈中,主持⼈LexFridman与嘉宾DylanPatel和NathanLambert⼀起,从
DeepSeek及其开源模型V3和R1谈到了AI发展的地缘政治竞争,特别是中美在AI芯⽚与技
术出⼝管制上的博弈。
LexFridman是MIT⼈⼯智能研究员、知名播客主持⼈及科技传播者。他⽣于俄罗斯,后移⺠美
国,拥有计算机科学博⼠学位,研究⽅向为深度学习和⾃动驾驶。⽽他的对谈节⽬《Lex
FridmanPodcast》以深度⻓谈闻名,曾邀请⻢斯克、扎克伯格等科技领袖及跨领域思想者,探
讨AI伦理、⼈类未来等宏⼤议题。
本⽂是「赛博禅⼼」根据原视频进⾏的整理,全⽂10万字。在公众号⾥,我同步发布了⼀份
「⼦速读版」
先介绍⼀下对谈的另外两名嘉宾:DylanPatel**和NathanLambert的对话。Dylan运营着
SemiAnalysis,⼀家专注于半导体、GPU、CPU和通⽤AI硬件的知名研究分析公司。Nathan
是艾伦⼈⼯智能研究所的研究科学家,也是著名AI博客Interconnects的博主。他们在AI领域
的专家、研究⼈员和⼯程师中备受尊敬和推崇。我个⼈也是他们的粉丝。
最近DeepSeek的出现给AI世界带来了⼀些震动,借此机会,我与他们坐下来深⼊探讨了
DeepSeek、OpenAI、⾕歌XAI、Meta、Anthropic,以及NVIDIA、台积电,乃⾄中美台关
系等⼀系列AI前沿话题。本次对话将深⼊剖析AI⾏业的诸多关键层⾯。
虽然内容⾮常技术化,但我们会尽照顾AI领域之外的听众,通过定义术语、明确要概念、
解释缩写等⽅式,⼒求在不同抽象层和细节层次之间灵活切换,保证内容的易懂性。当前媒体对
AI的报道充斥着炒作和不实信息,分析也往往缺乏深度。本次播客的⽬的之⼀,就是拨开这些迷
雾,穿透低质分析的表象,深⼊探讨AI技术的运作原理及其影响。
另外,我想简单评价⼀下OpenAI新发布的o3-mini推理模型。正如我们预料,它在我们对话
期间发布了,其性能和成本也与我们的预期相符。OpenAIo3-mini的确是⼀个很棒的模型,但
需要指出的是,DeepSeek-R1在基准测试中也展现出类似的性能,⽽且成本更低。更要的
是,R1模型能够展示其推理的思维链,⽽o3-mini则不具备这个特性,它只提供推理摘要。此
外,R1是开源的,⽽o3-mini不是。
DEEPSEEK-R1和DEEPSEEK-V3
LexFridman很多⼈对中国的DeepSeekAI模型感到好奇,今天我们就来深⼊了解⼀下。
Nathan,你能否先介绍⼀下DeepSeek-V3和DeepSeek-R1,它们的⼯作原理和训练⽅式?
我们先从宏观层⾯⼊⼿,再深⼊细节。
NathanLambertDeepSeek-V3是中国DeepSeek公司新推出的混合专家Transformer语⾔
模型。他们在模型中加⼊了⼀些新技术细节,我们稍后会详谈。总的来说,V3是⼀个开源权
模型,属于指令模型,类似于ChatGPT。他们还发布了基础模型,即应⽤后训练技术之前的版
本。⽬前指令模型是主流,⼴泛应⽤于各种场景。V3模型⼤约在12⽉26⽇那周发布的。⼏周
后的1⽉20⽇,DeepSeek⼜发布了DeepSeek-R1,这是⼀款推理模型,引发了更⼴泛的讨
论。
这款推理模型与DeepSeek-V3在训练步骤上有很多叠之处。V3既有基础模型,⼜有聊天模
型,还有推理模型,这确实容易让⼈困惑。我认为当前AI⾏业⾯临的挑战之⼀就是如何有效沟
通。OpenAI也在吐槽⾃⼰的模型命名体系,例如GPT-4o、OpenAIo1等,模型种类繁多。因
此,我们将逐⼀解析这些模型,理清它们之间的区别。训
文档评论(0)