来源:雪球App,作者: 花明之路,(https://xueqiu.com/3116843166/318678761)
一、【Mstech】DeepSeek的分歧,谈谈算力需求领导好,我们今天重点研究DeepSeek,除了基础的体验外,也去Github上学习了他的Technical Report(如需相关资料可私信),同步梳理了脑图如下。不得不说,DeepSeek是颠覆式的大模型,在MMLU-Pro等大模型测试上,和全球巨头站在同一身位。于此同时,市场也关注到了DeepSeek的一些参数(训练时间是LIama 3的1/11;价格是Claude 3.5的1/11),不少领导担心训练侧大幅降本,引发算力需求下降。我们认为,DeepSeek V3的成功,并不意味着算力需求下降。实际上是#DeepSeek参数有歧义,才造成了市场的误读。
#从训练到推理、算力需求持续增长1⃣DeepSeek V3的训练成本仅考虑单次训练,而实际大模型的训练需要:1)大量高质量数据的合成及清洗;2)充分的预训练;3)多个MoE专家模型的多次训练;2⃣AI应用和AI终端的落地节奏正在加速,推理侧将带来远超训练侧的算力需求,我们测算仅字节豆包未来就需要50-100万张等效H100算力需求。#CSP引领AI新范式我们在策略报告中强调,公开数据增速无法匹配大模型发展需求,预训练的Scaling Law已结束,采用私域高精度数据进行垂直领域专家大模型的训练将成为Scaling Law 2.0;云厂商从模型到算力,从云端到终端全面布局,形成完美的商业闭环,在下一轮AI产业叙事中,建议重点关注云厂商合作伙伴的投资机会。重点标的:ASIC:、通信、服务器:、AEC:、、兆龙互联铜连接:、散热:、电源:、
二、很多领导问,和国内外产业讨论了下,仅参考:1、DEEPSEEKV3编码和数学效果很好,超过O1之前的标杆3.5(CLAUDE)其他也还可以,但不一定超过sonnet3.5。离O1、O3纸面上看差距还是不小。2、特定领域实现了很好的数据优化,实现了细分应用比较好的效果和训练性价比。目前看如果相对明确的技术路线参考,不做特别多探索性工作的话能用有性价比的方式达到很好的效果。3、国内基础模型剩下的几大核心厂商对海外市面上发布的模型都有一定的跟随能力,可能无法预计的是尚未发布的模型。4、从O3体现的超强能力(纸面仍然领先幅度较大)和训练(预训练、后训练规划10万卡集群)、推理(高阶一个复杂点任务几千美金)来看,算力爆发逻辑没有影响.
三、浙商证券:【AI进入应用驱动算力正反馈周期,利好核心算力供应商(附股)】事件:DeepSeek V3面世,在数学、编程方面能力优异,且成本低。DeepSeek的低成本主要来自于:1)FP8低精度训练;2)MLA、MoE等架构和算法的优化;3)OpenAI、此前的成功经验。Scaling Law指出,模型性能由1)参数量;2)训练集;3)计算量综合决定。其中算力直接制约着参数量和训练集大小,是决定模型性能的核心之一。AI有望进入应用驱动算力的正反馈周期,国内外头部厂商继续加码算力投入,尤其国内有望力度更大,利好核心算力产业链。交换机/服务器: 、、;温控:、、;电源:、;光器件:易中天、、、;铜连接:、、等;AIDC:、。
四、Deepseek V3模型解读:算力不再关键了吗?
12.26日晚,全新大模型Deepseek V3上线,拥有671B参数,训练数据14.8T 高质量token,训练成本极低,仅为557.6万美金,整个训练只需要280万个GPU小时,而LLama 3(405B)使用了3080万GPU小时,几乎是Deepseek V3的11倍,相比较来说Deepseek V3的参数量/训练成本的能效极高,训练超大模型的成本极低; #DeepseekV3如何用极低的成本实现超大规模的模型训练?
1)模型架构的差异: -- OpenAI和Claude普遍采用稠密的Transformer架构,需要在每个前向&后向过程中激活并更新全部参数,因而在大规模预训练时对算力与显存的需求非常高; -- Deepseek V3采用的是稀疏的MoE(Mixture of Expert)架构,在推理或训练时只会激活少量参数(5%~10% 参数量),有效减少每次前向&后向的计算量,显著降低整体训练开支;
2)精度差异: -- OpenAI和Claude等模型在训练过程中多采用FP16精度,兼顾数值稳定和计算效率; -- Deepseek V3 采用了FP8 混合精度训练,从而将单位 GPU 小时的计算利用率推到更高水平,这也是其大幅缩减成本的重要原因之一,但工程复杂度与数值稳定风险也更高;
3)数据质量差异 -- OpenAI和Claude等模型采用的训练数据规模和质量更庞大、更多元化,且在RLHF(人类反馈强化学习)环节上投入很大,这部分也会增加不少成本; -- DeepSeek V3 数据规模也很大(14.8T tokens),但对质量与重复度进行严格筛选,加之后训练与蒸馏策略做了优化,减少了对额外 RLHF 资源的依赖;
4)算法优化 -- OpenAI和Claude等模型通常拥有定制化的大规模 GPU/TPU 集群(甚至专用硬件),在软件栈、集群管理、数据管线方面投入巨大,但也会带来较高的运营成本; -- DeepSeek V3 则通过在算法与工程侧的深度耦合,把相同的算力资源利用率最大化;
1)我们认为Deepseek V3通过稀疏的MoE的架构结合FP8的精度来极大的降低训练成本,但在通用性、稳定可靠性上还没有充分得到证明;
2)算力依然关键,同时架构和数据的重要性凸显,大模型厂商通过优化架构算法和提升数据质量,可以将同样算力发挥更高效的作用;
3)大模型训练及推理测需求在持续提升,需要大量的算力资源,Deepseek V3的出现将推进算力高效利用的趋势,算力、架构及数据的重要性同样重要;
4)全球及国内云厂商仍将加大投入推进大模型的训练及推理,高性价比的模型将成为产业链的长期趋势;
五、一些对DeepSeek模型的见解
领导周末好,本周市场热点继续聚焦在字节、等国内玩家的边际进展。但本周最值得关注的事件,应该是幻方量化发布了DeepSeek-V3模型。该模型一经发布就在国内外迅速出圈,并引发了资本市场的热烈讨论。在本周的AI行业动态跟踪中,我将分享一些对DeepSeek模型的见解,供各位领导参考
#DeepSeek-V3厉害在哪里?
1)性能极强:作为一个总参数量671B但激活参数仅37B的MoE模型,DeeSeek-V3在主流基准分数全面超越Llama 3.1405B,与Claude-Sonnet-3.5-1022近乎打平,实测在Sonnet-3.5和GPT-40之间,是当之无愧的国产最强开源模型:2)成本极低:训练DeeSeek-V3仅需2048张H800训练56天(2.788MGPUhours),算力成本仅4000万人民币,是Lama3.1训练成本的1/11。DeeSeek-V3的推理成本也持续超预期,输入/输出每百万Tokens仅2元/8元,仅为Sonnet-3.5的1/10这里甚至还没有考虑开启Context Caching这个外挂:
3)引领创新:DeepSeek打破了对国产模型团队的刻板印象,他们在V2提出的多头隐式注意力(MLA)就已得到了业内的高度赞许,还包括今年初提出的DeepSeekMoE架构,再到本次V3首次验证了大规模FP8混合精度训练的可行性,并创新性地应用了无辅助损失的负载均衡策略、多令牌预测(MTP)的训练目标等等。我们应该很自豪国内有这么一个有技术有人才实力有算力储备的大模型团队
(感兴趣的领导可以回看今年5月写的DeepSeek-V2解析: )
#为什么训练/推理成本这么低?
1)V3主要涉及的降本技术方案有
①MLA机制(降低KV 大小)、
②DeepSeekMoE架构(降低Flops/参数开销)
③FP8混合精度训练(降低Flops和显存占用)、
④蒸馏DeepSeek-R1推理能力(降低后训练RL成本)、
⑤MTP模块(提升解码速度)、
⑥P/D分离推理(最大化系统计算效率);
2)相较5月发布的V2,MOE的细粒度进一步提升,得益于负载均衡策略和系统层面的大量计算&通信优化:FP8精度的使用是本次V3的重大创新,在此之前FP8数值溢出风险大,叠加MOE训练本身又很不稳定,业内一直没有大规模训练的成功实践;类o1的CoT推理能力直接通过11月发布的R1模型进行蒸馏而得,这解释了为什么后训练只有5kGPU hours算力消耗不幸的是DeepSeek至今还未公布R1的训练细节;MTP不仅可以在训练时提供更多监督信息,还可以在推理时结合投机采样加速模型解码:推理部署V3在Prefi和Decode阶段采用了完全不同的并行策略,特别是在Decode阶段使用了320张GPU做了专家并行,有效降低解码时延,并缓解负载不均衡的问题
#对算力是利空吗?
1)无论是DeepSeek-V3还是上周发布的0penAI 03,它们都指向了同一个发展趋势:尽管预训练的“大力出奇迹“现阶段有些撞墙,但模型能力的提升依然在其他维度发生,无论是继续去挖掘Transformer架构的潜力,还是去卷后训练的强化学习,亦或是怼推理时计算。算力的投入依然会继续增加,只不过阶段性投入的重心从一年前的预训练,转移到了目前的后训练和推理:
2)对预训练的算力需求个人认为也无需过度悲观。算力通缩(单位token成本下降)在这个行业每天其实都在发生,但我们依然看到算力需求的持续增长。并且,任何技术的演进也都是周期交替的,假如明年初x.AI用10万卡集群训练出的Grok3表现惊艳,届时业内又可能重拾对超大规模预训练的热情
#对应用的意义有多大?
1)事实上今年5月DeepSeek-V2的发布就是国产大模型格局剧变的导火索。当时在V2发布几天后,火山引擎则宣布大幅降价,也正是那次价格战奠定了豆包在目前国内市场的格局。同理,我相信本次V3发布后,依然会在行业内形成类似的鲶鱼效应。况目DeepSeek团队在53页的技术报告里已经手把手地去教大家怎么做了。
2)未来随看国产大模型在能力再上一台阶,成本再下一台阶后,应用势必以更快的速率在各行各业落地。我个人最看好的依然是端侧的各式智能硬件(AIOT),这是符合国内市场消费习惯、中国供应链能充分受益、且更加从零到一的方向。从事件催化的角度,我们有望看到0penAI的GUI Agent"Operator”在25年1月发布。
同时在1月7日开幕的CES消费电子展上,我们也可能看到一些意想不到的端侧智能硬件。继续看好【】【】等端侧AIOT买铲人。
六、门捷列夫学徒:从Deepseek聊聊scaling law、Agent还有AGI
这几天Ai圈比较刷屏的就是DeepSeek V3这个模型号称只用了十分之一的算力就达到了Llama的效果 ,于是有人惊呼是不是要颠覆scaling law以及怀疑大规模的算力基建是否有必要 。
我反感一些打着专业Ai的自媒体公众号(比如量**)其实啥也不懂然后文章喜欢放一堆专业名词故意让外行看不懂 ,以及微博一帮所谓的半吊子Ai专家在那里瞎起哄 。
另外大家是来投资炒股的 ,不是来搞理论研究的 ,所以本文会围绕着“scaling law是否失效以及算力基建是否还值得下注”这个中心思想来 ,
至于Deepseek本身好不好 ,其实我不太care 。
1 、先打个浅显的比方:在创新药界也有一个“双十定律” ,即一款First in class的创新药需要花十年和十亿美金才能做出来 。
但是同款的仿制药无论是时间还是开销是远远低于这个数字的 。所以你不能说我只用了1000万美金做出来了一款哪怕是“me better”的药 ,就claim自己颠覆了创新药的研发范式 ,别人只会觉得这是个** 。是的 ,deepseek也同理 。
其实99%的算力是浪费在了无效路径和探索上 ,但是没有那99%就没有那1% 。
2 、我们所理解的那种经典的LLM即语言模型有两种:一个是Dense ,一个是Moe 。Dense就是大力出奇迹的通用泛化大模型 ,比如LLama 、GPT4等 。
Moe你可以理解成多个专家混合模型 ,比如我找16个在各自领域都很牛逼的专家 ,他们组合在一起就变成了一个很全能的Ai 。
所以无论是Dense还是Moe要解决的都是Ai的通用泛化问题 ,因为没有通用性就不是这一代的AI 。
比如多年前很火的阿尔法go ,下围棋无敌 ,但是做其他的完全不行 。
3 、目前业界公认的最有性价比的是600B左右的Moe小模型 ,这个早就不是什么新闻了 ,不知道这几天大家在震惊什么 。另外因为Moe的特性是专家组合嘛 ,所以在一些大模型评测跑分上肯定有优势 ,比如做数学题 ,这肯定比Dense模型效率高嘛 ,原理决定了 。但是Moe本身的scaling是有难度的, 现在TX走Moe是最坚决的 ,我理解想做一个像deepseek那样的600B小模型是不难的 ,腾讯真正现在要解决的是怎么scaling Moe的问题 。
注意:上面的叙事其实都是在2024年6月之前的 ,大家都想的是怎么让自己的模型更聪明 。但无论是Dense还是Moe似乎都出现了瓶颈 ,Scaling出现了性价比的问题 ,也就是所谓的预训练撞墙 。这其实才是真正的业内第一次质疑Scaling Law的时间点 。
我一直在说Ai发展的太快了 ,包括很多人对于Ai的理解还是那个chatgpt 。那个时候行业有一些悲观的声音(所以我现在对各种小作文完全免疫 ,
因为好多都是半年前的问题你们现在才拿出来说)但下面要说的是一个全新的Scaling范式 。
下面说6月之后的叙事 ,Asic 、Agent 、Inference的new story:
4 ,接着上面预训练撞墙的事情说 ,因为遇到了瓶颈 ,于是那时候行业里面分成了三派 ,也是三种新的scaling方案:第一派是以马斯克为代表的Xai ,还是大力出奇迹派:老马觉得是H卡不够好 ,认为十万卡集群才是未来 ,只要算力堆的足够多能解决目前预训练的所有问题 ,所以老马对B卡的下单是最激进的 。
也是老黄最喜欢的大客户 ,这一次GB200搞得这么急出现了这么多bug什么overpass不要啊都是因为老马催得急 。
缺点是十万集群卡出工程化难度太大 ,互联问题是个绝对的难点 ,
现在是每半小时就会出一次bug ,所以未来老马要自己做cpo或者下大单千万别奇怪哦 。工程化难度比spaceX还难 ,但老马自信觉得能解决所有的工程问题 ,好吧 ,做汽车出身的这一点非常老马。
第二派叫做多模态派 ,也就是Sora那种 。因为传统语料数据基本上用光了 ,但是视频数据还没有 。也有观点认为人类的智慧习得也是靠眼镜观察 ,所以需要给大模型喂视频来提高智慧能力 。
缺点也很明显:主要是多模态的数据没有语言文字那么抽象和有逻辑 ,
模型的逻辑能力出现了问题 ,以及Sora一直没推出实测版所以大家怀疑是不是openai其实内部也不看好 。
第三派其实才是今天的主角 ,那就是推理派 ,代表是openai 、 ,以及openai那位离职的大神IIya 。IIya是比较业内有影响力的大神 ,
大神第一次公开质疑pre-train的时间点是11月 ,但是大家都觉得他早就找到了解决办法 ,那就是算法改进 ,scaling的方向应该是RLHF不过对于大厂来说 ,这道题没这么难:那就是三派我全都要哈哈哈 ,比如字节 ,你看又重视Agent又推出了自己的Sora同时也在构建自己的十万卡群 。
无论哪派好像都得买卡,这也是为什么算力推进会极大加速的根本原因
,是不是也特别像医药 ,bigpharma的策略就是平铺pipeline ,才会冒风险做选择哈哈 。
5 、说回来RL ,也就是今天的推理和Agent ,原理就像人类训狗一样:要给一个标准的动作奖励(reward)来提高模型能力 。之前大模型经常出现幻觉的原因其实就是反馈机制不明晰不好优化 ,比如模型的一个回答让你觉得很荒诞 ,但是这一点如何反馈给模型其实比较难 。
所以RL的核心在于增加inference的算力或投入来代替pre-train的算力来解决这个问题 。说得再通俗一点 ,过去的scaling是让你多看书,RL的scaling是让你多做题 ,然后通过题目的正确与否来reward和优化 。
RL的核心是奖励(reward) ,先记住这句话 。
6 、Agent的出现其实就是顺应第三派的一个必然产物 。Agent本身就是一个模型 ,主要用作推理和解决实际问题 。
所以我为什么看好Ai+营销 ,为什么美股里面涨得最快的也是Ai+营销 。因为营销这件事非常容易reward ,结果说话就行。
反面例子就是教育Agent就很难 ,因为一个老师讲得好不好这件事千人千面太主观了 ,且结果的反馈(考试成绩)太滞后了 ,没有办法设置reward 。这下明白Agent应该优先布局哪些方向了吧。
7 、RL不用GPU也行 ,这是Asic突然大火的原因 ,因为笃信第三派的人越来越多(这其实就是这两个月发生的事情) ,前面的帖子也说过GB200和Asic的关系 。
我前面的帖子也说了推理(铜缆)、Agent 、字节这三个要素的投资。
声明:
1.本号内容在于分享信息和供本号相关人员随时查阅,除原创文章外其它内容不代表本号观点或立场;分享的信息仅供参考,不构成投资及交易建议,如使用请自行核实,据此操作,风险自担。