DeepSeek一夜爆红，极低训练成本真相大揭秘！

DeepSeek一夜爆红，极低训练成本真相大揭秘！

2025-02-18 18:04

农历新年期间，美国硅谷AI精英有如热锅上的蚂蚁，只因中国初创公司深度求索（DeepSeek）推出旗下首个思考型AI模型“DeepSeek-R1”，其效能直逼OpenAI o1，但外界估计其训练成本只有600万美元左右，不到meta、OpenAI的十分之一，引发美国高科技股一夕暴跌。但后来逐渐发现，DeepSeek的极低训练成本“神话”却是疑点重重，其真正成本可能远比外界想象为高。究竟DeepSeek-R1是AI技术发展的新里程碑，还是精心策划的骗局？

DeepSeek-V3训练成本比对手低

2024年12月26日，深度求索推出新版开源模型“DeepSeek-V3”，开发者可免费下载其原始程序码，任意进行研究和修改。在多项基准测试中，它比起同属开源、由meta公司开发的Llama 3.1-405B，表现更为优秀。

深度求索在DeepSeek-V3的论文中提及，因受到美国出口管制，只能使用英伟达（NVIDIA）为中国市场特供的低配版AI芯片H800 GPU来训练模型，其间只用了2,048颗H800，训练时长为278.8万GPU小时，训练成本为557.6万美元（约4,350万港元）。

至于Llama 3.1-405B，训练时长为3,080万GPU小时，成本足足是DeepSeek-V3的11倍。若说到最多人使用的OpenAI GPT-4o，则使用了25,000颗高阶GPU，训练成本更是高达1亿美元（约7.8亿港元）。这意味着中国AI公司已找到高效而低成本的模型训练方式，即使手头上没有大量高阶AI芯片，同样可以建构先进的AI模型，惟当时未有引起太大关注。

DeepSeek-R1达到推理思考境界

真正令DeepSeek一夜爆红的是，2025年１月20日释出的另一个全新模型“DeepSeek-R1”。它与OpenAI o1同属思考型AI模型，在回答用户提问前，会花更多时间进行推理思考，藉由分步骤剖析问题，识别和修正当中错误，进而提供“更深思熟虑”的答案。当深度求索竟然可以研制出思考型模型，硅谷AI精英就开始坐不住了。

大家要知道，推理思考是AI从助理（Assistant）转型为代理（Agent），再迈进通用人工智能（Artificial General Intelligence）圣殿的关键能力，也是OpenAI、Google、Anthropic等AI先驱的终极赛道。现时这条赛道上突然冒出一家名不经传的中国AI初创，而且能以极低成本方式进行模型训练，当然震惊了整个AI业界。同时，这亦引发外界质疑美国AI公司的运作效率是否较差，或者烧钱是否过多。

事实上，DeepSeek-R1论文中没有披露其训练成本等细节。外界只是以DeepSeek-V3论文所述的557.6万美元训练成本为基础，估计R1训练成本应该不会比V3高出多少，于是猜想可能是600万美元左右。随后，这两个金额被各大传媒应泛引用写成报道，因而造就了DeepSeek-R1极低训练成本的“神话”。

Deepseek网站因有大量用户涌入，以致服务器负荷过重，经常断线，严重影响服务质素。笔者也要两度尝试进入网站，方可拍摄到其主页画面。（图片来源：翻摄DeepSeek官网）

DeepSeek资本支出达16亿美元

半导体研究机构SemiAnalysis认为，557.6万美元只是最终训练成本，估计深度求索拥有5万颗NVIDIA高阶到低阶芯片，包括：10,000颗H100、10,000颗H800、以及一定数量的低配版H20，芯片投资额应在5亿美元（约39亿港元）以上，再加上营运成本约为9.44亿美元（约73.6亿港元），故此该公司总资本支出可能高达16亿美元（约124.8亿港元）。

Anthropic共同创办人达里奥·阿莫代（Dario Amodei）指出，美国AI企业在计算模型训练成本时，会纳入训练以外的研究开支，所以总额才会高达数十亿美元；他认为，仅是计算最终训练成本的做法，并不公平。

其实，DeepSeek-V3论文中已有说明，557.6万美元只是训练正式阶段所耗的GPU使用成本，未有纳入团队研发费用，只是一直被人忽略了。因此有评论认为，对DeepSeek“神话”的炒作，只为引发美股暴跌，以便炒家放空牟利。

DeepSeek蒸馏OpenAI模型数据

DeepSeek另一备受争议之处是，涉嫌偷用OpenAI模型的数据来训练自家模型。一般来说，OpenAI等AI公司进行模型训练，先要搜集、筛选和分类大量原始知识数据，供模型从头学起，历时需要数月，成本动辄数千万美元以上。

DeepSeek-R1论文指出，为求降低成本，团队采用蒸馏（Distillation）技术，意指把成熟大模型的知识资料抽取出来，然后输入到新的小模型；如此一来，便可以省去搜集和整理原始数据的时间和成本。因此在蒸馏技术下，开发者可以在几个星期、甚至几天内制作出一个几乎跟成熟大模型同样好的模型。

OpenAI于2025年1月29日表示，有证据显示DeepSeek曾使用OpenAI模型来训练自家模型，并暗示此举或许违反OpenAI服务条款。根据OpenAI服务条款，用户可以透过OpenAI提供的API界面，将其AI技术跟自家应用软件结合使用，但却严禁用户复制其任何服务或使用其输出来开发跟OpenAI竞争的模型。

虽然深度求索涉嫌违反OpenAI服务条款，但OpenAI执行长萨姆·奥尔特曼（Sam Altman）却大方地表示，暂时未有计划控告DeepSeek，并强调会继续创造优异产品，以模型实力引领世界。

Deepseek手机App自2025年1月26日荣登Apple App Store榜首以来，18天内下载量已突破1,600万次。（图片来源：翻摄Apple App Store）

DeepSeek或有助加快AI普及化

随着传媒不断报道DeepSeek，使用人数也与日俱增。据悉，其每日活跃用户数已达2,215万，等于ChatGPT的4成左右。但近日有不少用户投诉，DeepSeek服务器经常陷入繁忙状态，导致回答延迟，有时甚至要等上15分钟方可获得恢复。

DeepSeek创办人梁文锋（右）行事低调，鲜少在传媒镜头前曝光。他于2025年1月20日出席中国国务院总理李强主持召开的专家与企业家座谈会，才让人有机会一睹其庐山真面目。（图片来源：翻摄央视官网）

由此看来，就算DeepSeek能以较低成本来训练模型，但当模型上线开放给用户使用，始终要有庞大的AI基建来支撑日常运作。深度求索表示，因为服务器容量不足，所以限制其API界面服务的存取，而且暂时不会提供新的折扣优惠；同时又限制新用户注册，只开放给拥有中国地区手机号码的人开设新账户。

那么，DeepSeek-R1是否徒具虚名，不值一顾？答案当然不是。DeepSeek-R1采用了AI蒸馏、强化学习（RL）、自监督学习（SSL）、混合专家模型（MoE）、多头潜在注意力架构（MLA）等多项先进技术，让它即使搭配中低阶AI芯片运作，也可以有理想表现。虽然上述技术不算是什么新发明，但把所有技术整合于同一模型上，始终是一个创新做法。

DeepSeek-R1的出现，打破了投入大量资金、以高阶AI芯片堆栈高运算力的迷思，预计未来很多欧美AI公司在参考DeepSeek-R1的设计后，将会推出更多低成本的AI模型，有助加速生成式AI的普及进程。

以上就是本篇文章【DeepSeek一夜爆红，极低训练成本真相大揭秘！】的全部内容了，欢迎阅览！文章地址：http://sicmodule.glev.cn/news/19537.html
资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页歌乐夫资讯移动站 http://sicmodule.glev.cn/mobile/ , 查看更多