6850 亿参数 MoE 架构,557 万美元训练成本比肩 Claude 3.5
DeepSeek V3 最新版发布,编程能力大幅提升
DeepSeek V3-0324 版本发布,追赶 Claude 3.7
DeepSeek-R1 发布,推理能力比肩 OpenAI o1
DeepSeek V3 初版发布,震惊业界
DeepSeek V3 是杭州幻方量化旗下深度求索公司开发的开源大语言模型。它采用 MoE(混合专家)架构,总参数量 6850 亿,但单次推理仅激活 370 亿参数,实现了极高的性价比。最令人震惊的是,整个模型的训练成本仅 557.6 万美元,却达到了与 Claude 3.5 Sonnet 相当的效果。
混合专家模型,685B 参数中仅激活 37B,高效推理
557 万美元训练成本,仅为同级模型的 1/10
MIT 协议开源,可商用,无限制使用
最新版本编程能力大幅提升,接近 Claude 3.7
最新发布的 V3 版本,基于 32K GPU 集群改进后训练,编程能力大幅提升。
专注推理能力的模型,通过大规模强化学习训练,推理能力比肩 OpenAI o1。
专门针对代码生成和理解优化的模型,支持多种编程语言。
DeepSeek API 兼容 OpenAI 格式,可直接使用 OpenAI SDK:
from openai import OpenAI
client = OpenAI(
api_key="your_deepseek_api_key",
base_url="https://api.deepseek.com"
)
response = client.chat.completions.create(
model="deepseek-chat", # 或 deepseek-reasoner
messages=[
{"role": "system", "content": "你是一个专业的编程助手"},
{"role": "user", "content": "用 Python 实现快速排序算法"}
],
temperature=0.7,
stream=True
)
for chunk in response:
print(chunk.choices[0].delta.content, end="")
| 模型 | 输入价格 | 输出价格 | 对比 |
|---|---|---|---|
| DeepSeek V3 | ¥1 | ¥2 | 基准 |
| DeepSeek R1 | ¥4 | ¥16 | 4-8x |
| Claude 3.5 Sonnet | ¥21 | ¥105 | 21-52x |
| GPT-4o | ¥18 | ¥54 | 18-27x |
最新版编程能力大幅提升,适合 AI 编程助手
超低成本处理大规模数据分析任务
高质量文本生成,支持多种创作场景
MIT 开源协议,可自由部署到企业内部