← 返回工具列表

Nvidia Nemotron 3 NVIDIA 开源

Mamba-Transformer-MoE 混合架构,Apache 2.0 协议开源

253B 总参数
Apache 2.0 开源协议
混合架构 Mamba+Trans
推理优化 专为推理设计

🟢 什么是 Nemotron 3?

Nemotron 3 是 Nvidia 在 2025 年 12 月发布的新一代开源大模型。它采用创新的 Mamba-Transformer-MoE 混合架构,结合了 Mamba 的高效序列建模、Transformer 的强大表达能力和 MoE(混合专家)的稀疏计算优势。

🏗️ 创新架构:Nemotron 3 首次将 Mamba、Transformer 和 MoE 三种架构融合,在保持强大性能的同时大幅提升推理效率。这种混合架构是大模型发展的新方向。

混合架构示意

Mamba + Transformer + MoE

🏗️ 架构特点

🐍 Mamba 层

状态空间模型,线性复杂度处理超长序列,高效推理

🔄 Transformer 层

注意力机制处理复杂依赖关系,强大的上下文理解

🎯 MoE 稀疏激活

253B 参数中仅激活部分专家,大幅降低计算成本

⚡ 推理优化

专为 Nvidia GPU 优化,TensorRT-LLM 原生支持

📊 模型规格

Nemotron-3-253B-Instruct 旗舰版

最强版本,适合复杂推理、代码生成、长文本理解等高要求任务。

253B
总参数
128K
上下文
Apache 2.0
开源协议

Nemotron-3-70B 平衡版

性能与效率平衡,适合大多数企业级应用场景。

70B
总参数
32K
上下文
高效推理
单卡可跑

Nemotron-3-8B 轻量版

适合边缘部署和资源受限场景,保持基础能力。

8B
总参数
8K
上下文
边缘部署
消费级GPU

💻 快速上手

使用 Hugging Face Transformers 加载 Nemotron 3:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "nvidia/Nemotron-3-70B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

messages = [
    {"role": "user", "content": "解释一下 Mamba 架构的优势"}
]

input_ids = tokenizer.apply_chat_template(
    messages, 
    return_tensors="pt"
).to(model.device)

output = model.generate(input_ids, max_new_tokens=512)
print(tokenizer.decode(output[0], skip_special_tokens=True))
🚀 TensorRT-LLM 优化:Nvidia 提供官方 TensorRT-LLM 优化版本,在 A100/H100 GPU 上可获得显著的推理加速。

🎯 典型应用场景

🔬 科学研究

长文本理解、论文分析、数据处理

💻 代码生成

高质量代码补全、重构、文档生成

🤖 Agent 构建

构建具有推理能力的智能 Agent

🏢 企业部署

Apache 2.0 协议,可自由商用