DeepSeek

DeepSeek-V3是由深度求索公司于2024年12月26日推出的一款全新发布的自研混合专家（MoE）模型，旨在突破当前大语言模型的性能瓶颈。以下是DeepSeek-V3的详细介绍：

参数规模与架构：
- DeepSeek-V3拥有6710亿参数，激活参数达到370亿。
- 采用MoE架构，包含多达256个专家，每个专家都是一个独立的神经网络，能处理特定的任务或数据类型。
训练效率与成本控制：
- 训练成本仅为2.788M H800 GPU小时，远低于其他模型（用2048个H100算力训练2个月，采用非常激进的FP8训练。一般情况下，都是使用FP16/FP32混合精度训练，所需算力分别是目前的两倍和四倍，据说训练成本是557.6万美元，按目前汇率计价大概是4000多万人民币）
- 采用了FP8混合精度训练框架，并设计了DualPipe算法以实现高效的流水线并行性
性能表现：
- 在多项评测中超越了其他开源模型，并在性能上与世界顶尖的闭源模型相媲美
- 在知识类任务、长文本处理、代码生成和数学推理等多个领域展示出顶尖的性能。
中文能力：
- 在中文任务中表现突出，尤其在C-Eval教育类测评和C-SimpleQA知识类任务中，展现了其对中文的深刻理解和处理能力
生成速度提升：
- 通过算法和工程上的优化，DeepSeek-V3在生成吐字速度上实现了从20 TPS到60 TPS的三倍提升
开源与本地部署：
- DeepSeek-V3开源了原生FP8权重，并支持社区和开发者进行本地部署
技术特性：
- 采用了Multi-head Latent Attention (MLA)和DeepSeekMoE架构，通过细粒度专家、共享专家和Top-K路由策略，实现了模型容量的高效扩展。
- 引入了无额外损耗的负载均衡策略，通过引入并动态调整可学习的偏置项来影响路由决策，避免了传统辅助损失对模型性能的负面影响。
模型下载与使用：
- DeepSeek-V3模型可以在Hugging Face上查看和下载。