业界动态
DeepSeek一夜爆红,极低训练成本真相大揭秘!
2025-02-18 18:04

   农历新年期间,美国硅谷AI精英有如热锅上的蚂蚁,只因中国初创公司深度求索(DeepSeek)推出旗下首个思考型AI模型“DeepSeek-R1”,其效能直逼OpenAI o1,但外界估计其训练成本只有600万美元左右,不到meta、OpenAI的十分之一,引发美国高科技股一夕暴跌。但后来逐渐发现,DeepSeek的极低训练成本“神话”却是疑点重重,其真正成本可能远比外界想象为高。究竟DeepSeek-R1是AI技术发展的新里程碑,还是精心策划的骗局?

DeepSeek一夜爆红,极低训练成本真相大揭秘!

DeepSeek-V3训练成本比对手低

   2024年12月26日,深度求索推出新版开源模型“DeepSeek-V3”,开发者可免费下载其原始程序码,任意进行研究和修改。在多项基准测试中,它比起同属开源、由meta公司开发的Llama 3.1-405B,表现更为优秀。

   深度求索在DeepSeek-V3的论文中提及,因受到美国出口管制,只能使用英伟达(NVIDIA)为中国市场特供的低配版AI芯片H800 GPU来训练模型,其间只用了2,048颗H800,训练时长为278.8万GPU小时,训练成本为557.6万美元(约4,350万港元)。

   至于Llama 3.1-405B,训练时长为3,080万GPU小时,成本足足是DeepSeek-V3的11倍。若说到最多人使用的OpenAI GPT-4o,则使用了25,000颗高阶GPU,训练成本更是高达1亿美元(约7.8亿港元)。这意味着中国AI公司已找到高效而低成本的模型训练方式,即使手头上没有大量高阶AI芯片,同样可以建构先进的AI模型,惟当时未有引起太大关注。

DeepSeek-R1达到推理思考境界

   真正令DeepSeek一夜爆红的是,2025年1月20日释出的另一个全新模型“DeepSeek-R1”。它与OpenAI o1同属思考型AI模型,在回答用户提问前,会花更多时间进行推理思考,藉由分步骤剖析问题,识别和修正当中错误,进而提供“更深思熟虑”的答案。当深度求索竟然可以研制出思考型模型,硅谷AI精英就开始坐不住了。

   大家要知道,推理思考是AI从助理(Assistant)转型为代理(Agent),再迈进通用人工智能(Artificial General Intelligence)圣殿的关键能力,也是OpenAI、Google、Anthropic等AI先驱的终极赛道。现时这条赛道上突然冒出一家名不经传的中国AI初创,而且能以极低成本方式进行模型训练,当然震惊了整个AI业界。同时,这亦引发外界质疑美国AI公司的运作效率是否较差,或者烧钱是否过多。

   事实上,DeepSeek-R1论文中没有披露其训练成本等细节。外界只是以DeepSeek-V3论文所述的557.6万美元训练成本为基础,估计R1训练成本应该不会比V3高出多少,于是猜想可能是600万美元左右。随后,这两个金额被各大传媒应泛引用写成报道,因而造就了DeepSeek-R1极低训练成本的“神话”。

Deepseek网站因有大量用户涌入,以致服务器负荷过重,经常断线,严重影响服务质素。笔者也要两度尝试进入网站,方可拍摄到其主页画面。(图片来源:翻摄DeepSeek官网)

DeepSeek资本支出达16亿美元

   半导体研究机构SemiAnalysis认为,557.6万美元只是最终训练成本,估计深度求索拥有5万颗NVIDIA高阶到低阶芯片,包括:10,000颗H100、10,000颗H800、以及一定数量的低配版H20,芯片投资额应在5亿美元(约39亿港元)以上,再加上营运成本约为9.44亿美元(约73.6亿港元),故此该公司总资本支出可能高达16亿美元(约124.8亿港元)。

   Anthropic共同创办人达里奥·阿莫代(Dario Amodei)指出,美国AI企业在计算模型训练成本时,会纳入训练以外的研究开支,所以总额才会高达数十亿美元;他认为,仅是计算最终训练成本的做法,并不公平。

   其实,DeepSeek-V3论文中已有说明,557.6万美元只是训练正式阶段所耗的GPU使用成本,未有纳入团队研发费用,只是一直被人忽略了。因此有评论认为,对DeepSeek“神话”的炒作,只为引发美股暴跌,以便炒家放空牟利。

DeepSeek蒸馏OpenAI模型数据

   DeepSeek另一备受争议之处是,涉嫌偷用OpenAI模型的数据来训练自家模型。一般来说,OpenAI等AI公司进行模型训练,先要搜集、筛选和分类大量原始知识数据,供模型从头学起,历时需要数月,成本动辄数千万美元以上。

   DeepSeek-R1论文指出,为求降低成本,团队采用蒸馏(Distillation)技术,意指把成熟大模型的知识资料抽取出来,然后输入到新的小模型;如此一来,便可以省去搜集和整理原始数据的时间和成本。因此在蒸馏技术下,开发者可以在几个星期、甚至几天内制作出一个几乎跟成熟大模型同样好的模型。

   OpenAI于2025年1月29日表示,有证据显示DeepSeek曾使用OpenAI模型来训练自家模型,并暗示此举或许违反OpenAI服务条款。根据OpenAI服务条款,用户可以透过OpenAI提供的API界面,将其AI技术跟自家应用软件结合使用,但却严禁用户复制其任何服务或使用其输出来开发跟OpenAI竞争的模型。

   虽然深度求索涉嫌违反OpenAI服务条款,但OpenAI执行长萨姆·奥尔特曼(Sam Altman)却大方地表示,暂时未有计划控告DeepSeek,并强调会继续创造优异产品,以模型实力引领世界。

Deepseek手机App自2025年1月26日荣登Apple App Store榜首以来,18天内下载量已突破1,600万次。(图片来源:翻摄Apple App Store)

DeepSeek或有助加快AI普及化

   随着传媒不断报道DeepSeek,使用人数也与日俱增。据悉,其每日活跃用户数已达2,215万,等于ChatGPT的4成左右。但近日有不少用户投诉,DeepSeek服务器经常陷入繁忙状态,导致回答延迟,有时甚至要等上15分钟方可获得恢复。

DeepSeek创办人梁文锋(右)行事低调,鲜少在传媒镜头前曝光。他于2025年1月20日出席中国国务院总理李强主持召开的专家与企业家座谈会,才让人有机会一睹其庐山真面目。(图片来源:翻摄央视官网)

   由此看来,就算DeepSeek能以较低成本来训练模型,但当模型上线开放给用户使用,始终要有庞大的AI基建来支撑日常运作。深度求索表示,因为服务器容量不足,所以限制其API界面服务的存取,而且暂时不会提供新的折扣优惠;同时又限制新用户注册,只开放给拥有中国地区手机号码的人开设新账户。

   那么,DeepSeek-R1是否徒具虚名,不值一顾?答案当然不是。DeepSeek-R1采用了AI蒸馏、强化学习(RL)、自监督学习(SSL)、混合专家模型(MoE)、多头潜在注意力架构(MLA)等多项先进技术,让它即使搭配中低阶AI芯片运作,也可以有理想表现。虽然上述技术不算是什么新发明,但把所有技术整合于同一模型上,始终是一个创新做法。

   DeepSeek-R1的出现,打破了投入大量资金、以高阶AI芯片堆栈高运算力的迷思,预计未来很多欧美AI公司在参考DeepSeek-R1的设计后,将会推出更多低成本的AI模型,有助加速生成式AI的普及进程。

    以上就是本篇文章【DeepSeek一夜爆红,极低训练成本真相大揭秘!】的全部内容了,欢迎阅览 ! 文章地址:http://sicmodule.glev.cn/news/19537.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 歌乐夫资讯移动站 http://sicmodule.glev.cn/mobile/ , 查看更多   
最新新闻
京东改手机号(京东改手机号码)
  关于《京东改手机号》的指南  随着互联网的普及和电子商务的飞速发展,京东作为中国最大的电商平台之一,吸引了众多用户的
手机唤醒功能(手机唤醒功能在哪)
  文章标题:《手机唤醒功能:科技之光唤醒生活的便捷性》  随着科技的飞速发展,智能手机已经成为了我们日常生活中不可或缺
手机用什么p图软件(手机用什么p图软件不压缩)
  手机用什么P图软件?全面解析当下最热门的移动修图工具  随着智能手机的普及,人们对照片的美观度要求越来越高。因此,各
手机架怎么折(手机架怎么折视频教程)
  标题:《手把手教你折出实用的手机架》  在当今时代,手机已成为我们日常生活中不可或缺的伴侣。随着手机的普及,手机架也
手机内存空间不足怎么清理(手机内存空间不足,建议清理)
  关于《手机内存空间不足怎么清理》的文章  随着智能手机的普及,我们的手机中存储的信息越来越多,无论是工作文件、照片、
手机场景图(手机场景服务在哪里)
  关于《手机场景图》的文章  随着智能手机的普及,我们的生活越来越离不开手机。在日常生活中,我们会用手机拍摄各种场景,
手机没电了打电话提示什么(手机没电了打过去会提示什么)
  文章标题:《手机没电了打电话提示什么》  在这个科技日新月异的时代,手机已成为我们日常生活中不可或缺的一部分。然而,
手机没充满电拔了对手机有坏处吗(手机充电中途拔掉会影响手机吗)
  关于《手机没充满电拔了对手机有坏处吗》的探讨  随着科技的飞速发展,智能手机已成为我们日常生活中不可或缺的伙伴。与此
华为手机图案解锁(华为手机图案解锁设置不见了)
  华为手机图案解锁:一种直观且便捷的安全方式  随着科技的进步和智能手机的普及,手机安全成为人们日益关心的问题。在众多
天马手机屏幕(天马手机屏幕寿命)
  天马手机屏幕:技术与艺术的完美结合  在当今智能手机市场,天马手机屏幕以其卓越的品质和技术创新赢得了广大消费者的青睐