首款 MoE 架构多模态开源模型,千万 token 上下文,挑战 GPT-4o
Llama 4 是 Meta 于 2025 年 4 月 5 日发布的新一代开源大模型,首次采用混合专家(MoE)架构,支持文本、图像、视频、音频多模态处理。这是 Meta 在 AI 领域的重大突破,标志着开源模型正式进入与闭源模型正面竞争的新阶段。
混合专家架构,动态路由,高效推理
文本/图像/视频/音频统一处理
Scout 支持 1000 万 token 上下文
专为文档摘要、代码库分析等长文本任务设计,可在单张 H100 GPU 上运行。
主力旗舰版本,在编程、数学推理、多语言处理等任务中超越 GPT-4o 和 Gemini 2.0。
终极版本,2 万亿参数,STEM 基准测试超越 GPT-4.5 和 Claude Sonnet 3.7。
| 模型 | 参数量 | 上下文 | 多模态 | 开源 |
|---|---|---|---|---|
| Llama 4 Maverick | 4000亿 | 128K | 是 | 是 |
| GPT-4o | 未公开 | 128K | 是 | 否 |
| Gemini 2.0 | 未公开 | 1M | 是 | 否 |
| DeepSeek V3 | 6850亿 | 128K | 是 | 是 |
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "meta-llama/Llama-4-Maverick"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
inputs = tokenizer("Hello, Llama 4!", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(outputs[0]))# 下载并运行 Llama 4 ollama pull llama4-maverick ollama run llama4-maverick