DeepSeek成立于2023年7月17日,由知名量化资管巨头幻方量化创立。幻方量化在量化投资领域拥有强大的技术积累和资金支持,这为DeepSeek的技术研发提供了坚实的基础。
早期发展
2023年11月2日:DeepSeek发布了首个开源代码大模型DeepSeekCoder,支持多种编程语言的代码生成、调试和数据分析任务。
2023年11月29日:推出参数规模达670亿的通用大模型DeepSeekLLM,包括7B和67B的base及chat版本。
技术突破与市场影响
2024年5月:DeepSeek发布开源模型DeepSeek-V2,推理成本降至每百万token仅1元人民币,仅为GPT-4Turbo的七十分之一。这一“性价比之王”迅速引发中国大模型行业的价格战,字节跳动、腾讯及阿里等大厂纷纷跟进降价。
2024年9月5日:DeepSeek官方更新API支持文档,宣布合并DeepSeekCoderV2和DeepSeekV2Chat两个模型,升级推出全新的DeepSeekV2.5新模型。
2024年12月13日:发布用于高级多模态理解的专家混合视觉语言模型——DeepSeek-VL2,该模型在多种任务中展现了卓越的能力。
2024年12月26日:正式上线全新系列模型DeepSeek-V3首个版本并同步开源。DeepSeek-V3在知识类任务上的水平显著提升,接近当前表现最好的模型Anthropic公司于10月发布的Claude-3.5-Sonnet-1022。此外,DeepSeek-V3的生成速度从20TPS大幅提高至60TPS,实现了3倍的提升。
2025年1月20日,DeepSeek公司正式发布了其最新的推理模型——DeepSeek R1,并同步开源了模型权重。
该模型采用纯强化学习的方法,无需监督微调,展现了强大的推理能力。