业界动态
DeepSeek一夜爆红,极低训练成本真相大揭秘!
2025-02-18 18:04

   农历新年期间,美国硅谷AI精英有如热锅上的蚂蚁,只因中国初创公司深度求索(DeepSeek)推出旗下首个思考型AI模型“DeepSeek-R1”,其效能直逼OpenAI o1,但外界估计其训练成本只有600万美元左右,不到meta、OpenAI的十分之一,引发美国高科技股一夕暴跌。但后来逐渐发现,DeepSeek的极低训练成本“神话”却是疑点重重,其真正成本可能远比外界想象为高。究竟DeepSeek-R1是AI技术发展的新里程碑,还是精心策划的骗局?

DeepSeek一夜爆红,极低训练成本真相大揭秘!

DeepSeek-V3训练成本比对手低

   2024年12月26日,深度求索推出新版开源模型“DeepSeek-V3”,开发者可免费下载其原始程序码,任意进行研究和修改。在多项基准测试中,它比起同属开源、由meta公司开发的Llama 3.1-405B,表现更为优秀。

   深度求索在DeepSeek-V3的论文中提及,因受到美国出口管制,只能使用英伟达(NVIDIA)为中国市场特供的低配版AI芯片H800 GPU来训练模型,其间只用了2,048颗H800,训练时长为278.8万GPU小时,训练成本为557.6万美元(约4,350万港元)。

   至于Llama 3.1-405B,训练时长为3,080万GPU小时,成本足足是DeepSeek-V3的11倍。若说到最多人使用的OpenAI GPT-4o,则使用了25,000颗高阶GPU,训练成本更是高达1亿美元(约7.8亿港元)。这意味着中国AI公司已找到高效而低成本的模型训练方式,即使手头上没有大量高阶AI芯片,同样可以建构先进的AI模型,惟当时未有引起太大关注。

DeepSeek-R1达到推理思考境界

   真正令DeepSeek一夜爆红的是,2025年1月20日释出的另一个全新模型“DeepSeek-R1”。它与OpenAI o1同属思考型AI模型,在回答用户提问前,会花更多时间进行推理思考,藉由分步骤剖析问题,识别和修正当中错误,进而提供“更深思熟虑”的答案。当深度求索竟然可以研制出思考型模型,硅谷AI精英就开始坐不住了。

   大家要知道,推理思考是AI从助理(Assistant)转型为代理(Agent),再迈进通用人工智能(Artificial General Intelligence)圣殿的关键能力,也是OpenAI、Google、Anthropic等AI先驱的终极赛道。现时这条赛道上突然冒出一家名不经传的中国AI初创,而且能以极低成本方式进行模型训练,当然震惊了整个AI业界。同时,这亦引发外界质疑美国AI公司的运作效率是否较差,或者烧钱是否过多。

   事实上,DeepSeek-R1论文中没有披露其训练成本等细节。外界只是以DeepSeek-V3论文所述的557.6万美元训练成本为基础,估计R1训练成本应该不会比V3高出多少,于是猜想可能是600万美元左右。随后,这两个金额被各大传媒应泛引用写成报道,因而造就了DeepSeek-R1极低训练成本的“神话”。

Deepseek网站因有大量用户涌入,以致服务器负荷过重,经常断线,严重影响服务质素。笔者也要两度尝试进入网站,方可拍摄到其主页画面。(图片来源:翻摄DeepSeek官网)

DeepSeek资本支出达16亿美元

   半导体研究机构SemiAnalysis认为,557.6万美元只是最终训练成本,估计深度求索拥有5万颗NVIDIA高阶到低阶芯片,包括:10,000颗H100、10,000颗H800、以及一定数量的低配版H20,芯片投资额应在5亿美元(约39亿港元)以上,再加上营运成本约为9.44亿美元(约73.6亿港元),故此该公司总资本支出可能高达16亿美元(约124.8亿港元)。

   Anthropic共同创办人达里奥·阿莫代(Dario Amodei)指出,美国AI企业在计算模型训练成本时,会纳入训练以外的研究开支,所以总额才会高达数十亿美元;他认为,仅是计算最终训练成本的做法,并不公平。

   其实,DeepSeek-V3论文中已有说明,557.6万美元只是训练正式阶段所耗的GPU使用成本,未有纳入团队研发费用,只是一直被人忽略了。因此有评论认为,对DeepSeek“神话”的炒作,只为引发美股暴跌,以便炒家放空牟利。

DeepSeek蒸馏OpenAI模型数据

   DeepSeek另一备受争议之处是,涉嫌偷用OpenAI模型的数据来训练自家模型。一般来说,OpenAI等AI公司进行模型训练,先要搜集、筛选和分类大量原始知识数据,供模型从头学起,历时需要数月,成本动辄数千万美元以上。

   DeepSeek-R1论文指出,为求降低成本,团队采用蒸馏(Distillation)技术,意指把成熟大模型的知识资料抽取出来,然后输入到新的小模型;如此一来,便可以省去搜集和整理原始数据的时间和成本。因此在蒸馏技术下,开发者可以在几个星期、甚至几天内制作出一个几乎跟成熟大模型同样好的模型。

   OpenAI于2025年1月29日表示,有证据显示DeepSeek曾使用OpenAI模型来训练自家模型,并暗示此举或许违反OpenAI服务条款。根据OpenAI服务条款,用户可以透过OpenAI提供的API界面,将其AI技术跟自家应用软件结合使用,但却严禁用户复制其任何服务或使用其输出来开发跟OpenAI竞争的模型。

   虽然深度求索涉嫌违反OpenAI服务条款,但OpenAI执行长萨姆·奥尔特曼(Sam Altman)却大方地表示,暂时未有计划控告DeepSeek,并强调会继续创造优异产品,以模型实力引领世界。

Deepseek手机App自2025年1月26日荣登Apple App Store榜首以来,18天内下载量已突破1,600万次。(图片来源:翻摄Apple App Store)

DeepSeek或有助加快AI普及化

   随着传媒不断报道DeepSeek,使用人数也与日俱增。据悉,其每日活跃用户数已达2,215万,等于ChatGPT的4成左右。但近日有不少用户投诉,DeepSeek服务器经常陷入繁忙状态,导致回答延迟,有时甚至要等上15分钟方可获得恢复。

DeepSeek创办人梁文锋(右)行事低调,鲜少在传媒镜头前曝光。他于2025年1月20日出席中国国务院总理李强主持召开的专家与企业家座谈会,才让人有机会一睹其庐山真面目。(图片来源:翻摄央视官网)

   由此看来,就算DeepSeek能以较低成本来训练模型,但当模型上线开放给用户使用,始终要有庞大的AI基建来支撑日常运作。深度求索表示,因为服务器容量不足,所以限制其API界面服务的存取,而且暂时不会提供新的折扣优惠;同时又限制新用户注册,只开放给拥有中国地区手机号码的人开设新账户。

   那么,DeepSeek-R1是否徒具虚名,不值一顾?答案当然不是。DeepSeek-R1采用了AI蒸馏、强化学习(RL)、自监督学习(SSL)、混合专家模型(MoE)、多头潜在注意力架构(MLA)等多项先进技术,让它即使搭配中低阶AI芯片运作,也可以有理想表现。虽然上述技术不算是什么新发明,但把所有技术整合于同一模型上,始终是一个创新做法。

   DeepSeek-R1的出现,打破了投入大量资金、以高阶AI芯片堆栈高运算力的迷思,预计未来很多欧美AI公司在参考DeepSeek-R1的设计后,将会推出更多低成本的AI模型,有助加速生成式AI的普及进程。

    以上就是本篇文章【DeepSeek一夜爆红,极低训练成本真相大揭秘!】的全部内容了,欢迎阅览 ! 文章地址:http://sicmodule.glev.cn/news/19537.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 歌乐夫资讯移动站 http://sicmodule.glev.cn/mobile/ , 查看更多   
最新新闻
美团王兴身家135亿美元!超过京东刘强东和雷军!
6月16日,美团股价市值突破1万亿港元。疫情下的美团营收下滑但股价持续走高! 福布斯亿万富翁实时数据显示,美团创始人 CEO王兴
沙溢引发热议,本人颜值回春瘦身成功,是和贾玲、沈腾约好的吗?
都说减肥堪比整容,这句话真的是一点也不假,看看如今的贾玲大家就知道了,这还是曾经那个舞台上胖胖的贾玲吗?人瘦下来以后整个
近3年来最大跌幅?!油价,重大调整!
油价或出现近3年来最大跌幅。4月17日,油价将迎来新一轮调整,每升预计下跌0.4元至0.42元,调整后加满一箱50升油箱将少花21元左
中国电影消费年迎来五一档:超10部影片,精彩呈现!
转自:大湾区之声今年是消费年。当下,第十五届北京国际电影节正如火如荼进行中,众多精彩影片轮番上映,为中国电影市场再添活力
给“刘强东大战美团”划重点
  1.刘强东亲自发起对美团的战争,从春节后就开始屡上头条。印象中,他上一轮霸榜热搜是2018年的明州事件,当然那是一次计划之
迷雾剧场新剧阵容一绝秦昊统治区
?哇哇哇,迷雾剧场又有新剧来袭啦!这部《借命而生》真的是让人期待值拉满。先看看这主演阵容,秦昊、韩庚、钟楚曦、史彭元、林
李国庆谈刘强东打王兴“七寸”,还给王兴出招,认为饿了么要倒霉
3月2日,李国庆直播谈刘强东“打”王兴七寸这件事。也就是大家知道的,京东刘强东进入外卖行业了,美团的反应很大。认为京东正好
【待你学AI智习室】——孩子自习的私人教练
在这个信息爆炸的时代,孩子们的学习不再局限于传统的课堂与书本。家长们在追求孩子全面发展的同时,也面临着如何高效辅导、激发
多彩假期活动丰富 节日消费持续升温
  央视网消息(新闻联播):“五一”假期,丰富多彩的活动激活各地旅游市场,假日消费持续升温。  这个“五一”假期,红色旅
下调!或迎3年来最大降幅
车主们注意了油价或迎来近三年最大降价幅度▼4月17日油价将迎来新一轮调整, 每升预计下跌0.4—0.42元。 在本轮油价周期内油价由