-
- DeepSeek-V3拥有6710亿参数,激活参数达到370亿。
- 采用MoE架构,包含多达256个专家,每个专家都是一个独立的神经网络,能处理特定的任务或数据类型。
-
- 训练成本仅为2.788M H800 GPU小时,远低于其他模型(用2048个H100算力训练2个月,采用非常激进的FP8训练。一般情况下,都是使用FP16/FP32混合精度训练,所需算力分别是目前的两倍和四倍,据说训练成本是557.6万美元,按目前汇率计价大概是4000多万人民币)
- 采用了FP8混合精度训练框架,并设计了DualPipe算法以实现高效的流水线并行性
-
- 在多项评测中超越了其他开源模型,并在性能上与世界顶尖的闭源模型相媲美
- 在知识类任务、长文本处理、代码生成和数学推理等多个领域展示出顶尖的性能。
-
- 在中文任务中表现突出,尤其在C-Eval教育类测评和C-SimpleQA知识类任务中,展现了其对中文的深刻理解和处理能力
-
- 通过算法和工程上的优化,DeepSeek-V3在生成吐字速度上实现了从20 TPS到60 TPS的三倍提升
-
- DeepSeek-V3开源了原生FP8权重,并支持社区和开发者进行本地部署
-
- 采用了Multi-head Latent Attention (MLA)和DeepSeekMoE架构,通过细粒度专家、共享专家和Top-K路由策略,实现了模型容量的高效扩展。
- 引入了无额外损耗的负载均衡策略,通过引入并动态调整可学习的偏置项来影响路由决策,避免了传统辅助损失对模型性能的负面影响。
-
- DeepSeek-V3模型可以在Hugging Face上查看和下载。